2024年1月11日发(作者:)
CF(Variant Call Format)是一种用于存储生物信息学中基因组变异数据的标准文本格式。在不同的上下文中,VCF可以有两层含义:
1. 通讯录文件格式(vCard):
o
VCF有时也被用来表示Virtual Contact File或者vCard File Format,这是一种用于存储联系人信息的标准格式,包括姓名、电话号码、电子邮件地址等个人信息。VCF文件可以用在各种设备和软件上,如智能手机、邮件客户端和通讯录应用中进行交换和共享。
2. 生物信息学中的变异调用格式(Variant Call Format):
o
在生物信息学领域,VCF是更常见的意义,它主要用于描述基因组序列中存在的变异位点信息。VCF文件通常包含了测序数据比对后发现的单核苷酸变异(SNVs)、插入缺失(Indels)、结构变异(SVs)等多种类型的遗传变异数据。
对于生物信息学中的VCF格式,其详细结构如下:
Header Section:包含版本信息和其他元数据,以##开头的行定义了文件的格式规范、样本信息、过滤器解释、INFO字段定义等。
text ##fileformat=VCFv4.3 ##source=myVariantCaller‐v1.0 ##INFO=
Columns:每一行代表一个变异位点,列按照固定顺序排列:
o
CHROM: 变异所在的染色体或参考序列名。
o
POS: 该变异位于染色体上的位置。
o
ID: 变异标识符,如果有的话。
o
REF: 参考基因组在这个位置上的碱基序列。
o
ALT: 变异型,即与参考基因组不同的碱基序列。
o
QUAL: 变异质量评分,表示对该变异判断的信心度。
o
FILTER: 过滤标志,表明变异是否通过了一系列的质量控制标准。
o
INFO: 额外的信息字段,由一系列键值对组成,提供变异的更多特性描述。
o
FORMAT: 定义后续样本数据的格式。
o
SAMPLES: 每个样本对应的变异数据,按逗号分隔列出,格式与FORMAT字段中定义的一致。
发布评论