VCF文件格式解析编程频道|福州电脑网

2023年12月7日发(作者：)

VCF文件格式解析

VCF文件全称为Variant Call Format，表示基因组的变异信息，通常为GATK和Samtools软件处理所得到。

VCF文件大致可以分为两个部分：

1、以##开头的头文件信息

##fileformat=VCFv4.2

##FILTER=

##FORMAT=

##ypeCaller=

##Variants=

##INFO=

......

##contig=

##reference=file:///opt/NfsDir/PublicDir/reference/

##source=SelectVariants

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT son

头文件信息主要包括vcf文件版本、FORMAT、INFO、参考基因组以及执行程序等信息。

表头各列含义详解：

1. CHROM(chromosome):染色体

2. POS 变异位点在参考基因组中的位置

3. ID - identifier: variant的ID。比如在dbSNP中有该SNP的id，则会在此行给出；若没有，则用’.'表示其为一个novel variant。

4. REF - reference base(s):参考碱基，染色体上面的碱基，必须是ATCGN中的一个，N表示不确定碱基

5. ALT - alternate base(s):与参考序列比较发生突变的碱基

6. QUAL - quality: Phred格式(Phred_scaled)的质量值，表示在该位点存在variant的可能性；该值越高，则

variant的可能性越大；计算方法：Phred值 = -10 * log (1-p) p为variant存在的概率; 通过计算公式

可以看出值为10的表示错误概率为0.1，该位点为variant的概率为90%。

7. FILTER - _filter status: 使用上一个QUAL值来进行过滤的话，是不够的。GATK能使用其它的方法来进行过滤，过滤结果中通过则该值为”PASS”;若variant不可靠，则该项不为”

8. INFO - additional information: 这一行是variant的详细信息，具体如下：

#DP-read depth：样本在这个位置的reads覆盖度。是一些reads被过滤掉后的覆盖度。DP4:高质量测序碱基，位于REF或者ALT前后

#QD：通过深度来评估一个变异的可信度。Variant call confidence normalized by depth of sample reads supporting a variant

#MQ：表示覆盖序列质量的均方值RMS Mapping Quality

#FQ：phred值关于所有样本相似的可能性

#AC，AF 和 AN：AC(Allele Count) 表示该Allele的数目；AF(Allele Frequency) 表示Allele的频率； AN(Allele Number) 表示Allele的总数目。

对于1个diploid sample而言：则基因型 0/1 表示sample为杂合子，Allele数为1(双倍体的sample在该位点只有1个等位基因发生了突变)，

Allele的频率为0.5(双倍体的sample在该位点只有50%的等位基因发生了突变)，总的Allele为2；基因型 1/1 则表示sample为纯合的，Allele数为2，Allele的频率为1，总的Al

#MLEAC：Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed

#MLEAF：Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed

#BaseQRankSum 比较支持变异的碱基和支持参考基因组的碱基的质量，负值表示支持变异的碱基质量值不及支持参考基因组的，

正值则相反，支持变异的质量值好于参考基因组的。0表示两者无明显差异。

#FS 使用F检验来检验测序是否存在链偏好性。链偏好性可能会导致变异等位基因检测出现错误。输出值Phred-scaled p-value，值越大越可能出现链偏好性。

#InbreedingCoeff 使用似然法检验样本间的近交系数（又或者称为近亲关系）。值越高越可能是近亲繁殖。

#MQRankSum 比较支持变异的序列和支持参考基因组的序列的质量，负值表示支持变异的碱基质量值不及支持参考基因组的，只针对杂合。

正值则相反，支持变异的质量值好于参考基因组的。0表示两者无明显差异。实际应用中一般过滤掉较小的负值。

#BaseCounts 所有样本在变异位点ATCG的数量

#ClippingRankSum 同前面两个类似，负值表示支持变异的read有更的的hard-clip碱基，正值表示支持参考基因组的的read有更多的hard-clip。0最好，无论是正值还是负值都

#ReadPosRankSum 检测变异位点是否有位置偏好性（是否存在于序列末端，此时往往容易出错）。最佳值为0，表示变异与其在序列上的位置无关。负值表示变异位点更容易

#ExcessHet 检测这些样本的相关性，与InbreedingCoeff相似，值越大越可能是错误。

#LikelihoodRankSum 评价支持变异和ref的序列与best hyplotype的匹配性，0为最佳值。负值表示支持变异的read匹配度不及支持ref的匹配度，正值则相反。值越大表示越可能

#HaplotypeScore 分数越高越可能出现错误。Higher scores are indicative of regions with bad alignments, typically leading to artifactual SNP and indel calls.

#SOR：也是一个用来评估是否存在链偏向性的参数，相当于FS的升级版。The StrandOddsRatio annotation is one of several methods that aims to evaluate whether there is s

#IS：插入缺失或部分插入缺失的reads允许的最大数量

#G3：ML 评估基因型出现的频率

#HWE：chi^2基于HWE的测试p值和G3

#CLR：在受到或者不受限制的情况下基因型出现可能性log值

#UGT：最可能不受限制的三种基因型结构

#CGT：最可能受限制三种基因型的结构

#PV4：四种P值得误差，分别是（strand、baseQ、mapQ、tail distance bias）

#INDEL：表示该位置的变异是插入缺失

#PC2：非参考等位基因的phred（变异的可能性）值在两个分组中大小不同

#PCHI2：后加权chi^2，根据p值来测试两组样本之间的联系

#QCHI2：Phred scaled PCHI2

#PR：置换产生的一个较小的PCHI2

#QBD：Quality by Depth，测序深度对质量的影响

#RPB：序列的误差位置（Read Position Bias）

#MDV：样本中高质量非参考序列的最大数目

#VDB：Variant Distance Bias，RNA序列中过滤人工拼接序列的变异误差范围

9. FORMAT 和最后一列sample中的信息是对应的

#AD 和 DP：AD(Allele Depth)为sample中每一种allele的reads覆盖度,在diploid中则是用逗号分割的两个值，

前者对应ref基因型，后者对应variant基因型； DP（Depth）为sample中该位点的覆盖度。

#GT：样品的基因型（genotype）。两个数字中间用’/'分开，这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele；

1表示样品中variant的allele； 2表示有第二个variant的allele。因此： 0/0 表示sample中该位点为纯合的，和ref一致； 0/1 表示sample中该位点为杂合的，有ref和variant两个

#GQ：即第二可能的基因型的PL值，相对于最可能基因型的PL值（其PL=0）而言，大于99时，其信息量已不大，因此大于99的全部赋值99。当GQ值很小时，意味着第二可能基

#GL：三种基因型（RR RA AA）出现的可能性，R表示参考碱基，A表示变异碱基

#DV：高质量的非参考碱基

#SP：phred的p值误差线

#PL：指定的三种基因型的可能性(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1)，这三种基因型的概率总和为1。

和之前不一致，该值越大，表明为该种基因型的可能性越小。 Phred值 = -10 * log (p) p为基因型存在的概率。

VCF文件格式解析

发布评论取消回复

最近发表

相关推荐

标签列表

VCF文件格式解析

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复