2023年12月7日发(作者:)

vcf格式文件处理大全(二)

前面介绍过fasq,fastq,bam三种生物数据分析中常用的格式。fasta一般作为比对的参考序列,fastq为测序数据,将fastq比对到fasta则

生成bam文件,对bam进行排序建立索引,就可以直接输出为vcf格式,这个系列我们来详细介绍一下vcf格式的操作。

vcf格式文件处理大全(一)

5 查看固定区域

建立索引之后就可以快速查看固定区域,如果只有一起区域,可以在命令行书写如果一次要看很多区域,则可以输入一个bed文件。

#查看20号染色体1000-20000之间的突变位点

bcftools view 20:1000-20000

bcftools view -R

注意基因组区域写法:染色体名字:起始位点-终止位点

6 统计

如果想知道文件中包含多少突变的记录,以及每种突变具体的数据,可以使用bcftools的 stats功能进行统计。统计完了可以直接进行绘图。

bcftools stats >

plot-vcfstats -p output

7 查看固定内容信息

vcf里面包含的信息非常多,比较混乱,如果只想从中筛选出需要的内容,例如只需要Genotype信息,可以使用bcftools的query功能实现。

bcftools query -f '%CHROMt%POSt%REFt%ALT[t%SAMPLE=%GT]n'

注意格式的熟悉,每个关键字前面使用%,“t”或者“n”代表制表符与换行符。

8 合并多个结果

vcf中不仅可以包含单个样品,也可以同时包含多个样品的信息,只需要将多个样品的vcf合并即可。注意合并之前需要对每个样品创建索引。

bcftools merge -O b -o

---------- END ----------