2024年1月11日发(作者:)

CF(Variant Call Format)是一种用于存储生物信息学中基因组变异数据的标准文本格式。在不同的上下文中,VCF可以有两层含义:

1. 通讯录文件格式(vCard):

o

VCF有时也被用来表示Virtual Contact File或者vCard File Format,这是一种用于存储联系人信息的标准格式,包括姓名、电话号码、电子邮件地址等个人信息。VCF文件可以用在各种设备和软件上,如智能手机、邮件客户端和通讯录应用中进行交换和共享。

2. 生物信息学中的变异调用格式(Variant Call Format):

o

在生物信息学领域,VCF是更常见的意义,它主要用于描述基因组序列中存在的变异位点信息。VCF文件通常包含了测序数据比对后发现的单核苷酸变异(SNVs)、插入缺失(Indels)、结构变异(SVs)等多种类型的遗传变异数据。

对于生物信息学中的VCF格式,其详细结构如下:

Header Section:包含版本信息和其他元数据,以##开头的行定义了文件的格式规范、样本信息、过滤器解释、INFO字段定义等。

text ##fileformat=VCFv4.3 ##source=myVariantCaller‐v1.0 ##INFO=

Columns:每一行代表一个变异位点,列按照固定顺序排列:

o

CHROM: 变异所在的染色体或参考序列名。

o

POS: 该变异位于染色体上的位置。

o

ID: 变异标识符,如果有的话。

o

REF: 参考基因组在这个位置上的碱基序列。

o

ALT: 变异型,即与参考基因组不同的碱基序列。

o

QUAL: 变异质量评分,表示对该变异判断的信心度。

o

FILTER: 过滤标志,表明变异是否通过了一系列的质量控制标准。

o

INFO: 额外的信息字段,由一系列键值对组成,提供变异的更多特性描述。

o

FORMAT: 定义后续样本数据的格式。

o

SAMPLES: 每个样本对应的变异数据,按逗号分隔列出,格式与FORMAT字段中定义的一致。