2023年12月7日发(作者:)
VCF文件格式解析
VCF文件全称为Variant Call Format,表示基因组的变异信息,通常为GATK和Samtools软件处理所得到。
VCF文件大致可以分为两个部分:
1、以##开头的头文件信息
##fileformat=VCFv4.2
##FILTER=
##FORMAT=
##FORMAT=
##FORMAT=
##FORMAT=
##FORMAT=
##ypeCaller= ##Variants= ##INFO= ##INFO= ##INFO= ...... ##contig= ##contig= ##reference=file:///opt/NfsDir/PublicDir/reference/ ##source=SelectVariants #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT son 头文件信息主要包括vcf文件版本、FORMAT、INFO、参考基因组以及执行程序等信息。 表头各列含义详解: 1. CHROM(chromosome):染色体 2. POS 变异位点在参考基因组中的位置 3. ID - identifier: variant的ID。比如在dbSNP中有该SNP的id,则会在此行给出;若没有,则用’.'表示其为一个novel variant。 4. REF - reference base(s):参考碱基,染色体上面的碱基,必须是ATCGN中的一个,N表示不确定碱基 5. ALT - alternate base(s):与参考序列比较发生突变的碱基 6. QUAL - quality: Phred格式(Phred_scaled)的质量值,表 示在该位点存在variant的可能性;该值越高,则 variant的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为variant存在的概率; 通过计算公式 可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。 7. FILTER - _filter status: 使用上一个QUAL值来进行过滤的话,是不够的。GATK能使用其它的方法来进行过滤,过滤结果中通过则该值为”PASS”;若variant不可靠,则该项不为” 8. INFO - additional information: 这一行是variant的详细信息,具体如下: #DP-read depth:样本在这个位置的reads覆盖度。是一些reads被过滤掉后的覆盖度。DP4:高质量测序碱基,位于REF或者ALT前后 #QD:通过深度来评估一个变异的可信度。Variant call confidence normalized by depth of sample reads supporting a variant #MQ:表示覆盖序列质量的均方值RMS Mapping Quality #FQ:phred值关于所有样本相似的可能性 #AC,AF 和 AN:AC(Allele Count) 表示该Allele的数目;AF(Allele Frequency) 表示Allele的频率; AN(Allele Number) 表示Allele的总数目。 对于1个diploid sample而言:则基因型 0/1 表示sample为杂合子,Allele数为1(双倍体的sample在该位点只有1个等位基因发生了突变), Allele的频率为0.5(双倍体的sample在该位点只有50%的等位基因发生了突变),总的Allele为2; 基因型 1/1 则表示sample为纯合的,Allele数为2,Allele的频率为1,总的Al #MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed #MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed #BaseQRankSum 比较支持变异的碱基和支持参考基因组的碱基的质量,负值表示支持变异的碱基质量值不及支持参考基因组的, 正值则相反,支持变异的质量值好于参考基因组的。0表示两者无明显差异。 #FS 使用F检验来检验测序是否存在链偏好性。链偏好性可能会导致变异等位基因检测出现错误。输出值Phred-scaled p-value,值越大越可能出现链偏好性。 #InbreedingCoeff 使用似然法检验样本间的近交系数(又或者称为近亲关系)。值越高越可能是近亲繁殖。 #MQRankSum 比较支持变异的序列和支持参考基因组的序列的质量,负值表示支持变异的碱基质量值不及支持参考基因组的,只针对杂合。 正值则相反,支持变异的质量值好于参考基因组的。0表示两者无明显差异。实际应用中一般过滤掉较小的负值。 #BaseCounts 所有样本在变异位点ATCG的数量 #ClippingRankSum 同前面两个类似,负值表示支持变异的read有更的的hard-clip碱基,正值表示支持参考基因组的的read有更多的hard-clip。0最好,无论是正值还是负值都 #ReadPosRankSum 检测变异位点是否有位置偏好性(是否存在于序列末端,此时往往容易出错)。最佳值为0,表示变异与其在序列上的位置无关。负值表示变异位点更容易 #ExcessHet 检测这些样本的相关性,与InbreedingCoeff相似,值越大越可能是错误。 #LikelihoodRankSum 评价支持变异和ref的序列与best hyplotype的匹配性,0为最佳值。负值表示支持变异的read匹配度不及支持ref的匹配度,正值则相反。值越大表示越可能 #HaplotypeScore 分数越高越可能出现错误。Higher scores are indicative of regions with bad alignments, typically leading to artifactual SNP and indel calls. #SOR:也是一个用来评估是否存在链偏向性的参数,相当于FS的升级版。The StrandOddsRatio annotation is one of several methods that aims to evaluate whether there is s #IS:插入缺失或部分插入缺失的reads允许的最大数量 #G3:ML 评估基因型出现的频率 #HWE:chi^2基于HWE的测试p值和G3 #CLR:在受到或者不受限制的情况下基因型出现可能性log值 #UGT:最可能不受限制的三种基因型结构 #CGT:最可能受限制三种基因型的结构 #PV4:四种P值得误差,分别是(strand、baseQ、mapQ、tail distance bias) #INDEL:表示该位置的变异是插入缺失 #PC2:非参考等位基因的phred(变异的可能性)值在两个分组中大小不同 #PCHI2:后加权chi^2,根据p值来测试两组样本之间的联系 #QCHI2:Phred scaled PCHI2 #PR:置换产生的一个较小的PCHI2 #QBD:Quality by Depth,测序深度对质量的影响 #RPB:序列的误差位置(Read Position Bias) #MDV:样本中高质量非参考序列的最大数目 #VDB:Variant Distance Bias,RNA序列中过滤人工拼接序列的变异误差范围 9. FORMAT 和最后一列sample中的信息是对应的 #AD 和 DP:AD(Allele Depth)为sample中每一种allele的reads覆盖度,在diploid中则是用逗号分割的两个值, 前者对应ref基因型,后者对应variant基因型; DP(Depth)为sample中该位点的覆盖度。 #GT:样品的基因型(genotype)。两个数字中间用’/'分 开,这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele; 1表示样品中variant的allele; 2表示有第二个variant的allele。因此: 0/0 表示sample中该位点为纯合的,和ref一致; 0/1 表示sample中该位点为杂合的,有ref和variant两个 #GQ:即第二可能的基因型的PL值,相对于最可能基因型的PL值(其PL=0)而言,大于99时,其信息量已不大,因此大于99的全部赋值99。当GQ值很小时,意味着第二可能基 #GL:三种基因型(RR RA AA)出现的可能性,R表示参考碱基,A表示变异碱基 #DV:高质量的非参考碱基 #SP:phred的p值误差线 #PL:指定的三种基因型的可能性(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。 和之前不一致,该值越大,表明为该种基因型的可能性越小。 Phred值 = -10 * log (p) p为基因型存在的概率。
发布评论