2024年5月27日发(作者:)

明码标价之WES等DNA测序数据找变异

展开全文

最近有粉丝在我们《生信技能树》公众号

后台付费求助,想重新分析一下某肿瘤队列文

献的数据,需要下载几个T的fq数据走比对

流程,然后找SNV和CNV等变异。

因为他的课题是保密的,我这里不方便提疾病名字和数据集,恰

好最近学徒进行到了WES实战环节。而且对方让我们先秀一秀肌肉,

所以我把这个《肿瘤ngs队列的上游》任务安排给了学徒 !

下面是学徒的探索

date: 2021-05-14 13:37:00

whole exome-sequencing analysis pipeline

全外显子数据分析

(一) 环境搭建

1、GATK依赖Java 8/JDK 1.8 (Oracle or OpenJDK)

#查看一下环境中是否有java,如果有,版本是否符合要求

java --version

2、下载安装GATK4

wget /broadinstitute/gatk/releases/down

load/4.2.0.0/

unzip

#将当前路径加到环境变量中

echo 'export PATH=/home/gongyuqi/biosoft/GATK/gatk-

4.2.0.0:$PATH' >> ~/.bashrc

source ~/.bashrc

3、下载其他需要的软件

#首先创建WES的conda环境

conda create -n WES

#其次下载其他需要的软件

conda install -y python=3.6.2

conda install -y bwa sra-

tools samtools bcftools snpEFF multiqc

qualimap

#激活环境,准备开始实战演练

conda activate WES

#创建存放各阶段数据的文件夹

cd /home/gongyuqi/project/WES

mkdir raw qc clean mutaion

cd qc && mkdir raw_qc clean_qc

(二) WES测试数据下载

1、数据来源GSE153707,我们这里从EBI直接下载fastq文件

#将下列数据下载的脚本保存到文件中

dir=/home/gongyuqi/.aspera/connect/etc/asperaweb_id_ds

h

x=_1

y=_2

for id in {11,12}

do

ascp -QT -l 300m -P33001 -i $dir era-

*************.:/vol1/fastq/SRR121/0$id/SRR121359$id

/SRR121359$id$ .

ascp -QT -l 300m -P33001 -i $dir era-