2024年5月27日发(作者:)
明码标价之WES等DNA测序数据找变异
展开全文
最近有粉丝在我们《生信技能树》公众号
后台付费求助,想重新分析一下某肿瘤队列文
献的数据,需要下载几个T的fq数据走比对
流程,然后找SNV和CNV等变异。
因为他的课题是保密的,我这里不方便提疾病名字和数据集,恰
好最近学徒进行到了WES实战环节。而且对方让我们先秀一秀肌肉,
所以我把这个《肿瘤ngs队列的上游》任务安排给了学徒 !
下面是学徒的探索
date: 2021-05-14 13:37:00
whole exome-sequencing analysis pipeline
全外显子数据分析
(一) 环境搭建
1、GATK依赖Java 8/JDK 1.8 (Oracle or OpenJDK)
#查看一下环境中是否有java,如果有,版本是否符合要求
java --version
2、下载安装GATK4
wget /broadinstitute/gatk/releases/down
load/4.2.0.0/
unzip
#将当前路径加到环境变量中
echo 'export PATH=/home/gongyuqi/biosoft/GATK/gatk-
4.2.0.0:$PATH' >> ~/.bashrc
source ~/.bashrc
3、下载其他需要的软件
#首先创建WES的conda环境
conda create -n WES
#其次下载其他需要的软件
conda install -y python=3.6.2
conda install -y bwa sra-
tools samtools bcftools snpEFF multiqc
qualimap
#激活环境,准备开始实战演练
conda activate WES
#创建存放各阶段数据的文件夹
cd /home/gongyuqi/project/WES
mkdir raw qc clean mutaion
cd qc && mkdir raw_qc clean_qc
(二) WES测试数据下载
1、数据来源GSE153707,我们这里从EBI直接下载fastq文件
#将下列数据下载的脚本保存到文件中
dir=/home/gongyuqi/.aspera/connect/etc/asperaweb_id_ds
h
x=_1
y=_2
for id in {11,12}
do
ascp -QT -l 300m -P33001 -i $dir era-
*************.:/vol1/fastq/SRR121/0$id/SRR121359$id
/SRR121359$id$ .
ascp -QT -l 300m -P33001 -i $dir era-
发布评论