2024年1月12日发(作者:)
蛋白质结构文件PDB格式
用图象直观表示蛋白质和核酸结构在生物化学教科书和研究论文中屡屡出现。这些图象是美丽迷人的反而使我们忽视了图象背后所反映的实验细节;实验中应用的生物物理方法,X射线晶体衍射学家和核磁共振波谱分析学家们努力工作的成效.在结构数据库中记录的数据是实用化的实验数据。 它既不同于直接由仪器获得的原始数据,也并非原始数据的简单数学转换。每一个结构数据库记录都内含着随结构预测技术的进步而不断变化的假设和偏好。尽管如此,每个生物分子结构蕴涵着有关序列所缺失数据的至关重要的信息。
三维分子结构数据的一些概念
首先做一个关于如何记录生物高聚物的三维数据的思想实验。考虑一下如何在纸上记录如肌球素这类蛋白质的三维球棒模型的所有细节和尺度关系。一条开始的途径是从由三维模型主干描绘出的氨基酸序列入手。从N’端开始,我们通过将每个残基的化学结构与20种普通氨基酸化学结构(其结构的图解可以从教科书中找到)比较,以识别每个氨基酸侧链。
一旦序列被写出来,我们将绘制生物高聚物的二维草图,草图中包括所有的原子、基本符号、化学键,可能会占用几页纸。亚化血红素配合基的绘制即为一例。将它的化学结构画在纸上后,我们可以通过量测模型中每个原子在设定的直角坐标系中的距离记录三维数据。同时也提供了球;棒结构中每个原子“球”的x,y,z坐标距离数据。
下一步是提出一个系统的分门别类的记录方案以保存与识别有关的每个原子的(x,y,z)坐标信息。最简单的方法是在生物高聚物的二维草图上,每个原子的右侧,标出(x,y,z)三元坐标值。
以上思想实验有助于我们对三维结构数据库应包含哪些内容形成初步的概念。从人类可读性的角度而言,这样的结构记录形式是足够的,但计算机却不一定能够理解它。计算机需要原子、化学键、坐标、残基、分子间结合关系的清晰明显的编码。
坐标、序列、化学图像
典型的三维结构记录中与使用的文件格式无关的最明显的数据是坐标数据,它表征了分子中原子的空间位置,用沿着每个坐标轴到某特定原点的距离(x,y,z)表示。每个原子的坐标数据归属于结构记录中的标注信息列表:空间中的每一点代表了记录中的元素、残基和分子。对于生物多聚体,这标注信息来源于序列。每个序列固含的是重要的化学数据。我们能够直接从序列中推断出完整的包含所有原子和化学键的生物高聚物分子化学联接,能够恰如早先所描述的仅从序列信息出发描绘出草图。我们把这分子“草图”称作三维结构的化学图像。序列是生物高聚物分子完整化学图谱的固有表示。
当描绘从属原子与化学键的略图以表示序列时,我们可以借鉴教科书中描绘的每个残基的化学结构,以免露掉一两个甲基。同样地,计算机可利用“残基词典”在内存中建立结构的类似于略图的化学图像表示,“残基词典”中则包括一组对应于每个普通氨基酸或核酸模块的原子类型与化学键信息表。
原子、化学键和完整性
分子图像可视化软件完成了精细的“点联接”过程,而绘制出如我们在生物分子结构教科
书中所见到的完美的蛋白质结构图像,例如图3.1所示的胰岛素3INS结构(Isaacs,Agarwal,1978)。显然,原子间联接依靠化学键。在目前的应用中,三维分子结构数据库记录使用了两种不同的键数据信息优化存储方法。
记录原子与化学键信息的经典途径是依靠“化学准则”。这些准则是显而易见的物理化学准则,比如稳定的碳、碳键的平均长度大约1.5埃。应用这些来源于化学键的规则,意味着空间中两个1.5埃距离的碳原子总形成单键。有了这些化学准则,我们可完全简化化学键信息存储。倘若结构本身未违背任何化学规则,则能够被完整记录而不带任何附加键信息。
最初的三维生物分子结构文件记录格式,Brookhaven蛋白质数据库(Bernstein等,1977)的PDB格式皆以化学准则方法为基础。一般而言,这些记录没有生物高聚物的完整键信息。无需“残基词典”,而仅用可能成键原子对的键长与键类型匹配表即可解译用“化学准则方法”编码的数据。
PDB数据文件读入软件包必须能基于这类规则重构化学键。对于程序员,如何解释PDB文件中的键信息尚未形成明确统一的规则,而导致了各类软件绘制化学键连接时的不一致,尤其应用了不同的算法和距离容差,这类情况更为严重。虽然PDB文件组织方案在记录数据存储方面的要求最低,但比较连键信息和化学图像描述已在记录中详细说明的情况,则对存储信息进行恰当解释所需算法也相应更复杂。这将迫使程序开发者做更多的工作。基于事件的编程中,考虑连键规则中的种种例外情况,更需要复杂的逻辑说明。
第二种方法在由PDB衍生而来的分子建模数据库(MMDB)的数据库记录中得到应用。MMDB运用标准的“残基词典”,其中记录了氨基酸、核酸残基这样以聚合体形式存在,具有末端多样性的分子中所有原子、化学键信息。在结构科学家解决分子结构而使用的专用软件中,这类数据词典是很普遍的。读入MMDB数据的软件能利用词典所提供的键信息将原子连为一体,而无须力图满足化学准则的要求。最终,用软件获得准确的三维坐标数据。这种方法使软件开发简单化,因为连键规则中的例外情况在数据库文件中已被记录,而无须附加逻辑控制代码即可将之读入。
一些不熟悉结构数据的科学家常常希望在公共数据库中的结构信息表达类同于教科书。他们会对结构中某部分的数据丢失感到惊讶。相应于某一特定分子的三维数据库记录的适用性并不意味着完整性。结构的完整性定义如下:化学图像中任一原子至少有一维坐标值确定。
在结构数据库中,完整的记录是不多见的。大多数由X射线衍射获得的结构缺少氢原子坐标,因为氢原子的空间位置不能用实验手段决定。但一些建模软件可用于估计氢原子位置,并用其重建结构记录。在结构数据库各大类主要数据库介绍
数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。核酸序列数据库有GenBank, EMBL, DDB等,蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D,
TrEMBL等,蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等,三维结构数据库有PDB,
NDB, BioMagResBank, CCSD等,与蛋白质结构有关的数据库还有SCOP, CATH, FSSP,
3D-ALI, DSSP等,与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等,文献数据库有Medline, Uncover等。另外一些公司还开发了商业数据库,如MDL等。生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务,如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库,三维
结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多种查询。
下面循序简介一些著名和有特色的生物信息数据库。
简表:
基因和基因组数据库
1. Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从NCBI的主页上找到这些服务。
Genbank库里的数据按来源于约55,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)。每条Genbank数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件。
(1)Genbank数据检索
NCBI的数据库检索查询系统是Entrez。Entrez是基于Web界面的综合生物信息数据库检索系统。利用Entrez系统,用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成。用户可以利用Entrez界面上提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能来实现复杂的检索查询工作。对于检索获得的记录,用户可以选择需要显示的数据,保存查询结果,甚至以图形方式观看检索获得的序列。更详细的Entrez使用说明可以在该主页上获得。
(2)向Genbank提交序列数据
测序工作者可以把自己工作中获得的新序列提交给NCBI,添加到Genbank数据库。这个任务可以由基于Web界面的BankIt或独立程序Sequin来完成。BankIt是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。用户提交序列后,会从电子邮件收到自动生成的数据条目,Genbank的新序列编号,以及完成注释后的完整的数据记录。用户还可以在BankIt页面下修改已经发布序列的信息。BankIt适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,EST序列和GSS序列也不应用BankIt提交。BankIt使用说明和对序列的要求可详见其主页面。
大量的序列提交可以由Sequin程序完成。Sequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据。Sequin除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以FASTA或ASN.1格式序列为输入数据的序列分析程序都可以整合到Sequin程序下。在不同操作系统下运行的Sequin程序都可以在ftp:///sequin/下找到,Sequin的使用说明可详见其网页。
NCBI的网址是:。
Entrez的网址是:/entrez/。
BankIt的网址是:/BankIt。
Sequin的相关网址是:/Sequin/。
2. EMBL核酸序列数据库
EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。向EMBL核酸序列数据库提交序列可以通过基于Web的WEBIN工具,也可以用Sequin软件来完成。
数据库网址是:/embl/。
SRS的网址是:/。
WEBIN的网址是:/embl/Submission/。
3. DDBJ数据库
日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。可以使用其主页上提供的SRS工具进行数据检索和序列分析。可以用Sequin软件向该数据库提交序列。
DDBJ的网址是:/。
4. GDB
基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。目前GDB中有:人类基因组区域(包括基因、克隆、amplimers PCR 标记、断点breakpoints、细胞遗传标记cytogenetic markers、易碎位点fragile sites、EST序列、综合区域syndromic regions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content contig图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上等位基因频率数据)。GDB数据库以对象模型来保存数据,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式观看基因组图谱。
GDB的网址是:。
GDB的国内镜像是:/gdb/。
蛋白质数据库
1. PIR和PSD
PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。
PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
PIR和PSD的网址是:/。
数据库下载地址是:ftp:///pir/。
2. SWISS-PROT
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。
利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。
SWISS-PROT的网址是:/swissprot/。
3. PROSITE
PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。
PROSITE的网址是:/prosite/。
4. PDB
蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。
RCSB的PDB数据库网址是:/pdb/。
5. SCOP
蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全α、全β、α/β、α+β和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库,这个库通常被用来评估各种序列比对算法。此外,SCOP还提供一个PDB-ISL中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。
SCOP的网址是:/scop/。
6. COG
蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。
COG库的网址是:/COG。
下载COG库和COGNITOR程序在:ftp:///pub/COG。
功能数据库
1. KEGG
京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库是LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。
KEGG的网址是:/kegg/。
2. DIP
相互作用的蛋白质数据库(DIP)收集了由实验验证的蛋白质-蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询DIP数据库。
DIP的网址是:/。
3. ASDB
可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB(蛋白质)部分来源于SWISS-PROT蛋白质序列库,通过选取有可变剪接注释的序列,搜索相关可变剪接的序列,经过序列比对、筛选和分类构建而成。ASDB(核酸)部分来自Genbank中提及和注释的可变剪接的完整基因构成。数据库提供了方便的搜索服务。
ASDB的网址是:/asdb。
4. TRRD
转录调控区数据库(TRRD)是在不断积累的真核生物基因调控区结构-功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各种结构-功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。TRRD包括五个相关的数据表:TRRDGENES(包含所有TRRD库基因的基本信息和调控单元信息);TRRDSITES(包括调控因子结合位点的具体信息);TRRDFACTORS(包括TRRD中与各个位点结合的调控因子的具体信息);TRRDEXP(包括对基因表达模式的具体描述);TRRDBIB(包括所有注释涉及的参考文献)。TRRD主页提供了对这几个数据表的检索服务。
TRRD的网址是:/mgs/dbases/trrd4/。
5. TRANSFAC
TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据库。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等数据表构成。此外,还有几个与TRANSFAC密切相关的扩展库:PATHODB库收集了可能导致病态的突变的转录因子和结合位点;S/MART DB收集了与染色体结构变化相关的蛋白因子和位点的信息;TRANSPATH库用于描述与转录因子调控相关的信号传递的网络;CYTOMER库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。TRANSFAC及其相关数据库可以免费下载,也可以通过Web进行检索和查询。
TRANSFAC的网址是:/TRANSFAC/。
其它数据库资源
1. DBCat
DBCat是生物信息数据库的目录数据库,它收集了500多个生物信息学数据库的信息,并根据它们的应用领域进行了分类。包括DNA、RNA、蛋白质、基因组、图谱、蛋白质结构、
文献著作等基本类型。数据库可以免费下载或在网络上检索查询。
DBCat的网址是:/services/dbcat/。
下载DBCat在:ftp:///pub/db/dbcat。
2. PubMed
PubMed是NCBI维护的文献引用数据库,提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。
PubMed的网址是:/。
除了以上提及的数据之外,还有许许多多的专门生物信息数据库,涉及了目前生物学研究的各个层面和领域,由于篇幅所限无法一一详述。国内也有一些大数据库的镜像站点和自己开发的有特色的数据库,如欧洲分子生物学网络组织EMBNet中国节点北京大学分子生物信息镜像系统,上海博容基因公司与上海嘉瑞软件公司合作开发的国产汉化基因数据库及分析管理系统,同时国家级的生物信息学中心也在筹建之中。我们期待国内能有更多高质量和使用便利的数据库资源,推动我国生物信息学和整个生命科学的发展。
清华大学生物信息学研究所网址:
北京大学生物信息镜像系统网址:
中识别由模型构造的分子是容易的。它们常常有过于复杂的坐标数据和所有用实验手段无法确认的氢原子可能表达形式。
【PDB:Brookhaven国家实验室蛋白质数据库】
概述
计算机在生物学中的运用起源于生物物理方法的应用,如X射线结晶衍射。于是最初的“生物信息学”数据库被用于存储复杂的三维数据不足为怪。现代的蛋白质数据库以收集的蛋白质三维结构公共数据为核心,附带核酸、糖类三维结构和各类由X射线衍射结晶学家、核磁共振谱分析学家通过实验测定的合成物。本部分集中详细介绍由蛋白质数据库PDB提供的生物信息学数据库服务。
PDB数据库服务
Brookhaven国家实验室(详见本章末列表)蛋白质数据库的WWW站点为三维结构数据的提交、检索提供了大量的服务。
提交结构数据
对于那些希望向PDB提交三维结构信息的人们而言,可以经由AutoDep服务机构按照一定的基于网页的程序步骤实现其愿望。因为提交程序是随编写时间而不断变化的,所以在PDB的网络站点上应该能找到最新信息。核酸结构数据保存在核酸数据库NDB中。Biotech Validation Suite站点是镜像站点,提供在提交结构数据前屏蔽立体化学构象与几何学构象不一致的PDB文件的服务。
PDB明文规定拒收依靠计算机三维建模而非实验手段获得的结构数据。而关于已被宣布为例外结构的最新细节数据的提交需与PDB商议。容纳结构模型的单独的数据库是现成的。
PDB的ID编码
PDB中登记入册的结构记录拥有一个唯一的包含字母与数字的被称为PDB-ID或PDB编码的四位字符串,可由数字0~9和大写字母A~Z组合而成。因此可能的组合方案超过了
130万种,没有按某特定顺序分配PDB-ID。但蛋白质数据库PDB的索引编撰者尽量设计好的记忆方法,使结构名称易于记忆,如早先如图3.1所示的胰岛素记录3INS。
数据库查询、PDB文件检索与链接
PDB和它的一些镜像站点提供由每个PDB记录的所有文本信息索引的文本搜索引擎,可按一些专门的查询项目(如提交数据、作者姓名、结构表达)检索。PDB最新的搜索引擎,3DB Atlas,可用于PDB记录检索,如图3.2示。3DB Atlas也是链接有PDB结构数据第三方注解的基本数据库,支持大量的到基于因特网三维结构服务的其它网点的链接。其中包括了一些二维、三维浏览器,如Kinemage(Richardson,Richardson,1992)、Resmol(Sayle,Milner;White,1995)。创建的图像有助于调整三维结构方向,以获得观察结合位点这类确定特征的最好视角。3DB Atlas也与专门设计的数据库相连,这些数据库由对诸如结构进化(FSSP:Holm,Sandar,1993)、结构相似性(DALI:Holm,Sander,1996)和蛋白质运动(Gerstein等,1994)等相关课题有兴趣的研究者维护。3DB可相应链接NCBI的MMDB服务(Hogue等,1996),提供了一条到Entrez(Schuler等,1996)系统(包括序列、分类、PubMed/MEDICINE服务和VAST结构相似性比较)的通路。
源自PDB结构记录的序列
PDB文件编码格式的序列是众人皆知的。因为不能确保结构的完整,PDB记录包括两个序列信息备份:隐性序列和显性序列。两者都被用于重构生物高聚体的化学图像。
显性序列在PDB文件中以关键词SEQRES打头逐行存储。不同于其它序列数据库,PDB记录用三字母氨基酸编码,任意选择三个字母作为名称的非标准氨基酸在许多PDB记录序列条目中可被找到。在PDB中,一些双螺旋核酸序列条目被指定依照在条目中按从3’到5’端的顺序排列的一条链在上,从5’到3’端排列的互补链在下的方式排列。虽然这些以双螺旋形式表达的序列对人类而言是容易理解的,但直接由计算机阅读此类从3’到5’端排列的显性序列是荒堂的。
因为三维结构可能对应有多个生物高聚物链,所以使用者必须借助PDB链识别标记方可确定需要的序列。PDB文件SEQRES入口用一个大写字母或空格作为链识别标记,以识别条目中的每个单独的生物高聚体链。如图3.1所示的3INS结构,在记录中便存在两种胰岛素分子。3INS序列包括A、B、C、D四个氨基酸序列。由胰岛素的生物化学背景知识知道A、B蛋白质链源自同一基因,在翻译修饰的过程中,胰岛素序列被切为如PDB记录所示的两段。这个信息没有在三维结构数据库中被记录。单字母链命名方案与所枚举的大齐分子量聚合物,如衣壳病毒,的三维结构是有困难的,因为单字母链识别器的可识别总数是有限的。
PDB记录中的隐性序列蕴涵在由PDB文件中的ATOM记录及相应(X,Y,Z)位置坐标构成的化学立体结构中。在解决诸如核酸序列后向编码或非标准氨基酸识别等利用显性序列无法明确解决的问题时,隐性序列是十分有用的。实践中,许多PDB文件浏览器,如Rasmo
l,仅用隐性序列重构PDB记录蛋白质的化学图象,而忽略由SEQRES引导的显性序列信息。若要求这类软件打印某不完整的分子序列,其打印结果序列在现实中将并不存在。所以说隐性序列尚不足于重构完整的化学图像。
举例说明,假设在PDB文件SEQRES条目中存在一个序列ELVISISALINES,但缺少子序列ISA的(X,Y,Z)位置坐标信息,阅读隐性序列的软件会错误地构建ELVISLINES的
化学图象。用于测试软件是否仅依赖隐性序列去分析结构信息的样本测试结构3TS1(Brick等,1989)在Java三维结构浏览器Webmol中的图像如图3.3所示。
PDB序列验证
为合理地检验来自PDB记录的序列,必须先获得ATOM记录中的隐性序列。这一步并不繁琐。若结构因间断而不完整,则给定链会拥有一套隐性序列框架。每个框架与SEQRES条目中相应链的显性序列相对应。用这种方式可产生包括可能丢失坐标信息的那部分生物序列在内的完整化学图象。而这种验证需以MMDB、mmCIF数据库的建立为物质基础。由PDB结构记录衍生出来的单字母编码类型蛋白质、核酸序列检验样本最好来自NCBI Entrez体系的MMDB。如对胰岛素这样的序列记录系统地建立了数据库附录,利用附pd
b|3INS|A, pdb|3INS| B,pdb|3INS|C, pdb|3INS|D,可以由Entrez中被分割的蛋白质序列恢复完整的序列。PDB文件中包含Swiss-Port蛋白质数据库DBXREF序列记录的参考说明。以下两点需要注意:其一,因为检验程序在链接过程中未被实现,所以Swiss-Port中的序列不需与结构一、一对应;其二,许多PDB文件分类简单而含糊不清,这一点在一些源自不同种类的分子复合物的三维结构中有所表现。
【MMDB:NCBI的分子建模数据库】
概述
NCBI的分子模型数据库MMDD(Hogue等,1996)是NCBI Entrez体系(Schuler等,1996)的一部分。其中囊括了由晶体衍射和核磁共振实验研究得到的所有PDB(Bernstein等,
1977)生物分子三维结构。MMDB是ASN.1记录格式,而非PDB记录格式的数据库。MMDB结构与原始的PDB结构相比,增加了一些附加信息,包括经程序验证的显性化学图像信息,一致的二级结构衍生定义,与MEDLINE相匹配的引用,基于源自生物实体的蛋白质或核酸链进行分类的分子匹配。
MMDB数据库服务
NCBI的MMDB提供了诸如被检验序列的BLAST检索,结构-序列匹配,文件格式转换,编程界面显示等服务。
结构记录文本查询
正如其它三维结构服务那样,MMDB数据库可利用WWW Entrez及Network Entrez(Schuler等,1996)进行文本查询。MMDB亦称为Entrez Structure组分。MMDB检索域包含PDB、MMDB的ID编码,源自PDB注释记录的自由文本,作者名及其它著书目录检索域。
MMDB结构摘要
MMDB的网络界面提供了每个MMDB结构记录的结构摘要网页,如图3.2b示。MMDB结构摘要网页为结构中的每条链提供了FASTA格式的序列,并提供了到MEDLINE、3DB Atlas、Brookhaven PDB网页及站点的链接,结构中每条氨基酸链和核酸链邻近序列的链接和到每条链中各域间VAST结构比较服务的链接。
BLAST:新序列相似性
当研究者希望找到新序列的相似结构,NCBI的BLAST(Altschul等,1990)在BLAST
检索数据库“pdb”中提供了MMDB所有验证序列的拷贝。BLAST网页界面,可以FASTA格式将序列粘贴到序列条目“箱”中,并选择相应“pdb”序列数据库,在目前公共结构数据库的所有验证序列中进行检索。
Entrez Neighboring:已知序列相似性
Entrez中的序列已经完成了BLAST操作。依靠Entrez的“neighboring”操作,可找到与给定蛋白质序列相似的序列结构。
下面说明如何利用Entrez“ Neighboring” 操作以决定与已知序列相似的序列三维结构是否存在。首先找到WWW Entrez的“Search the NCBI protein database”选项,再执行对感兴趣序列进行检索的查询请求。如查询oncomodulin,若在查询中检索记录摘要,
可在下拉式菜单上选择“Structure links”项,按Display键可显示出两个MMDB记录:IRRO(Ahmed等,1990)和IOMD。
通过执行蛋白质“neighboring”邻接操作,然后从三维结构邻近的蛋白质族列表中找出链接对象并链接,可完成细微相似性的扩展查询。仍以查询oncomodulin为例,每个蛋白质记录将显示有几百个“邻近”蛋白质。首先选择“邻近”蛋白质列表,再执行在包含所有“邻近”蛋白质的网页顶部的[Display][Structure list]命令,结果将给出很长的包括三维结构数据库中所有其它同源钙指蛋白质(如parvalbumin)在内的查询清单。
VAST:基于三维形状的结构相似性
VAST(矢量分析检索工具,Gibral等,1996)用于检索三维结构的相似性。它舍弃了序列信息,而单纯依靠由二级结构衍生的三维矢量指标进行检索。VAST具有检索结构相似而序列不相似的生物高聚体的能力。如同BLAST一样,VAST可以N*N方式操作数据库中的所有条目,并存储结果,以利于Entrez界面快速检索。利用VAST算法,对10,000多个局部结构一一匹配比较,并记录了结构之间的匹配与重叠关系。VAST算法是基于统计意义下的相似性比较算法,故而检验蛋白质结构比较中偶然发生的局部结构的诸多相似性是没有必要的。例如, sheets中有许多小片段具有显而易见的相似性,用VAST检验其相似性,结论是具有细微同源性,而这是用普通序列对比算法无法检验的。正基于此,这类相似性将提供一个关于研究蛋白质家族结构、功能、进化的更宽广的视角。
序列相似性检验程序提供了两序列的匹配信息,结构相似性检验程序提供了三维结构的重叠信息。利用一套三维旋转、变换矩阵操作可将结构的相似部分集中在一起。一种方便的序列匹配方法是通过蛋白质骨架中碳的空间堆叠寻找三维重叠。除了相似结构的列表,由VAST获得的邻近结构检索结果还包括详细的残基间匹配和关于结构重叠的三维转换阵。在实践中,选择具高度相似性的局部结构,并与DALI(Holm和Sander,1996)比较,可知通过VAST获得的匹配是保守的。利用VAST重叠区可以容易地识别由于蛋白质进化而结构改变的区域,因而DALI在为构建结构模型而进行的序列、结构比较中更有用。在研究蛋白质结构关系时,尤其与记录蛋白质家族信息的SCOP(Murzin等,1995)数据库联合使用,VAST和DALI这两个工具都是十分优秀的。
【结构文件格式】
PDB
PDB文件格式是纵向排列的,类同早先FORTRAN程序员所用的打洞卡,PDB网站上保持了这种文件格式风格。由结构科学家开发的结构软件大多由FORTRAN语言编写。而生
物信息学的其它方面则采用了另外的语言,如C语言;PDB文件往往前后矛盾,如本章所述的那样,表面上看起来语法容易分析,但实际上存在着不少漏洞。对初学者而言,最显著的问题是关于生物高聚物的键信息是不存在的,而迫使利用化学规则编程,以识别由PDB命名方式命名的各原子及提高对例外情况进行操作的鲁棒性。PDB句法分析软件常常需要同义代名词列表和例外情况列表以正确解释信息。但本章内容不着重于阐述如何构建PDB语法。
两种新的以化学背景为基础的文件格式:mmCIF(大分子化学交换格式)和MMDB(分子建模数据库)产生了。两种文件格式都力图使PDB信息现代化,两者皆以机器文法一致的数据描述语言开头。数据描述语言采用了在编程语言中可以任何名称、任何值出现的“标记值”对。两者的格式说明皆支持机器阅读,相应软件利用这个格式说明文件检验数据流。两种软件文件格式可通过基于匹配的利用带有显性SEQRES化学图像和文件中记载的验证信息重构固有ATOM及HETATM化学图像的策略由PDB文件衍生出来。最终使得这两种格式在综合生物分子序列数据库方面优于PDB格式数据库文件,它们在未来软件中的应用前景是令人鼓舞的。
mmCIF
产生mmCIF(Bourne等,1995)文件格式的原本目的是作为小分子晶体学家熟悉的CIF(化学交换格式:Hall等,1991,基于STAR语法子集合)的扩展。用于分析验证格式说明的CIF软件并非与mmCIF前向兼容,因为它们对STAR语法均有不同的补充。MmCIF记录的基本数据组织形式是一组关系表。 MmCIF把格式说明称做“mmCIF词典”,保存在Rutgers大学的核酸数据库WWW站点上。“mmCIF词典”是包含保持PDB文件中存储信息及衍生自基本坐
标数据的其它数据信息(如键角信息)所需要的一系列说明。MmCIF数据说明界面对所有的数据都是一致的,可支持基于WWW 的相关数据库网络查询格式NDB Protein Finder。靠“mmCIF词典”检验数据流需要相当大的mmCIF数据I/O开支。所以mmCIF可能被指定为高级存档类查询格式。用FORTRAN和C编写的将mmCIF表转换成关系表并读入内存的软件函数库是适合于一般晶体学家所用的一些UNIX工作平台的。
MMDB
MMDB文件格式依靠ASN.1(Rose, 1990)数据描述语言定义,这类数据描述语言也可用于包括远程通讯和自动化制造在内的其它类型领域。由于美国国家药物图书馆也用ASN.1对序列和目录信息进行数据说明,所以MMDB格式还借用了其它数据说明的特定方式,如用于描述数据记录所引用参考著作书目的部分。ASN.1文件可以人类可读的文本文件或各种二进制文件或可被任何硬件平台解压的二进制文件类型出现。MMDB标准残基词典是一个有关标准生物高聚体残基类型化学图像的信息查询表。MMDB格式说明被保存在NCBI 的MMDB FTP站点上。比较“mmCIF词典”,MMDB ASN.1说明更紧凑,数据条目更少,避免了衍生数据的堆积。与mmCIF关系表设计对比,MMDB数据记录分层记录结构组织。在性能方面,ASN.1格式的MMDB文件比mmCIF或PDB记录具有更快的输入、输出流速度。所构建的层次与mmCIF或PDB文件关系设计方案比较,在加载时需要更少的检验步骤。因此ASN.1文件对于三维数据库浏览是较理想的。
对MMDB而言,一个完整的应用编程界面是有用的,可做为包含各类C代码库与应用程序的NCBI工具箱的一部分。NCBI工具箱支持x86和基于Alpha的Windows平台,Macintoch 68K和PowerPC处理器,以及各种类型的UNIX平台。三维结构数据库浏览器,Cn3D,便是NCBI工具箱中的一个基于MMDB-API的附原代码的应用程序。
【结构信息显示】
多种表示类型
我们常用多种图像表示类型观察分子结构的不同面貌,因为蛋白质结构记录1BN1在结晶体中有三种barnase分子,所以借用文本编辑器手写PDB文件以删除多余的链。为了使三维结构浏览器依照用户的意图进行显示,在三维分子结构软件中编辑数据文件是习以为常的。既然如此,在三维结构中记录的衍射结晶实验数
据并不是来自“生物单元”。“生物单元”定义为三维结构的生理学形式,是目前PDB数据库实施面临的生物信息学挑战之一。在我们的例子中,分子barnase应是唯一的,但相反,对应一个晶体单元,我们却发现了三个分子。又在其它例子3TS1(Brick等,1989)中,分子是一个二聚体,但PDB文件中仅记录了相称子单元中的一个,文件的注释记录中以非解析的形式写入了一个旋转变换阵。从对称的操作中重建生物单元是具有挑战意义的,需要专用软件实现。
利用X衍射NMR技术从分子的“同步”群体(包括规则晶格的空间“同步”及由外部磁场产生的核旋转状态行为的“同步”)推断出三维结构。群体的信息被收集为一整体。用数值方法获得结构中原子的(X,Y,Z)坐标位置。由这些数据获得的样本的化学图像与源自实验的三维结构数据构成的期望图像相一致。这个期望的化学图像包含源自序列的生物高聚体信息的混合,这与例子中所提出的诸如酶作用物、添加基团、离子等已知小分子的化学图像性质相同。
分子群体应用略微不够理想的结果是出现数据库记录中退化坐标匹配,如化学图像中一个原子对应多个坐标。当分子群体具有明显的异质构造时,将被记录在数据库中。
NMR原型和集合总体
图3.5(见彩色图版)表示了四个三维结构,左边的由X晶体衍射得到,右边的由NMR实验获得。右边的NMR结构显得“模糊”。实际上,在这些图像中有许多不同的复杂结构首尾相连堆积在一起。每个结构被称为一个“原型”,所有“原型”的集合称作“集合总体”。在“集合总体”中的每个“原型”是一个非手性镜象的,似是而非的结构,同“集合总体”中的其它“原型”一样,与基本的NMR数据相符合。
NMR结构(图3.5b、d所示)“集合总体”的图像显示了分子在溶解状态下的动态多样性。反应于实验中,即是溶解状态下的自由分子能够进行动态结构变化。形成对比的是,X射线衍射结构(图3.5a、c所示)提供了一幅静态分子图像。它反映了在限制动态结构变化的规则晶格状态下实验条件。这些图像形象地说明了结构特征。若利用X射线衍射结构测量两原子间的距离,我们将得到一个数值;而用NMR结构“集合总体”,将得到一取值区间。很明显,对距离的说明将依赖于三维结构的来源!当心忽略或未能显示结构数据库中表示的群体退化的软件,因为这种信息的缺失会进一步导致对说明的曲解。用隐藏了“集合总体”中其它成员的软件量测NMR结构中两原子的距离将只给出单值,并不是实验学家所发现的正确的距离区间。
相对无序性
典型的X晶体衍射结构只有一个“原型”。但一些原子子集合可能还有退化的坐标,我们称这种情况为“相对无序性”(如图3.6a示,见彩色图版)。许多X射线衍射结构数据库记录具
有“相对无序性”。三维分子图像软件常忽略“相对无序性”和“集合总体”的存在。一些应用程序仅显示“集合总体”中的第一个“原型”, “相对无序性”集合中原子的第一个位置,忽略其它退化的坐标值。最糟的是有时会在两个退化位置间错误地连上化学键,使得结构图像一团糟,恰如图3.6b所示。
局部动态性
一种单一技术可用于限制相同结构中不同于其它原子的构型。举例说明如下:一个多种作用力作用的内部原子或骨架原子在NMR或X衍射实验数据上是大部分一致的,因而分子表面上的原子拥有更大的结构自由度(见图3.5b中不同残基的涂片尺寸)。内部蛋白质侧链典型地显示了“集合总体”上较少的柔韧性,所以可以得出结论:蛋白质内链完全缺少构型源动力。但最敏感的生物物理方法,单色氨酸残基的荧光染色分光,具有特殊的检测色氨酸侧链构型的多样性的能力。对这种方法进行多年的反复研究,显示在多相结构中,纯化蛋白质内部的色氨酸布局更易出现(Beechen和Brand,1985)。最近对这一方法的研究表明此方法能够在单晶erabutoxin中检测色氨酸的折叠,而用X射线晶体学方法(Dahms和Szabo,1995)是做不到的。在说明三维结构数据时,注意在数据中多相性是不被体现的,除了实例中提供的大部分布局形态外,NMR和X衍射方法的结果是一致的
【数据库结构浏览器】
RasMol和基于RasMol的浏览器
一些检查PDB文件的浏览器是有效的(Sanchez-Ferrer等,1995)。最流行的浏览器是Roger Sayle的RasMol(Sayle和Milner-White,1995)。RasMol代表了软件驱动三维图像显示的重大进展,它的源代码对于有兴趣于高性能三维图像的任何人都是受欢迎的学习材料。RasMol格外小心地处理PDB数据,经常重新计算信息,以弥补在基本的数据中出现的不一致性。它并非致力于证实PDB文件中编码的序列或结构的化学图像。RasMol本质上
即未完成基于“词典”的标准残基检验,也未完成隐性与显性序列的匹配。RasMol忽略了相关的混乱“集合总体”,一次仅显示一个NMR“原型”。在PDB文件中编码的其它数据,如二硫键,不是利用直接检验,而是通过基于化学规则的重新计算得到的。
RasMol包括许多出色的输出格式,能够被Molscript(Kranlis,1991)程序用来制作奇妙的用于出版的“PostScript”带状图表。为了能最有效地利用RasMol,必须掌握它的在许多传统三维结构程序软件中被普遍使用的命令行语言。在Massachusetts大学由Eric Martz维护的RasMol主页中可获得RasMol图像显示,RasMol指南,源代码和基于用户的邮件支持列表等RasMol操作服务。
一些对学术界用户免费的新软件程序日益通用,这些软件程序是基于RasMol软件驱动三维透视图算法和零星的PDB语法分析的,其中包括MDLL公司提供的嵌入到Netscape中的Chime软件。由Dirk Walther开发的Java Applet程序WebMol是表面上借助RasMol类型透视图,基于Java的三维结构浏览器,如图3.3示。WebMol软件已证明目前在大多数PC机和工作站上使用的Java字节编码的编译器不足以快速地完成超过200个残基的RasMol类型软件驱动三维透视图的显示。这限制了WebMol的适用对象只是小型结构和分子的实际化学键模型。
MMDB浏览器:Cn3D
Cn3D是一种新的三维结构浏览器,用于浏览MMDB数据记录。由于MMDB数据记录克服
了一些PDB条目数据化学图像模棱两可的缺点,并且所有的键信息是“显性的”,所以Cn3D具有可靠地显示三维数据库结构的能力,而不需要语法分析,校验和PDB文件读入程序的例外情况处理等环节。Cn3D默认的结构图像更具有资料存储与显示处理的能力,因为它不会受数据错误表达的影响。但因为Cn3D依靠MMDB中ASN.1记录的完整化学图像信息,所以它目前尚不能读入PDB文件。
Cn3D提供了一套“控制面板”,可以在三维图像的一侧隐藏或显现。例如,在三维图像顶端显现的Viewer Control面板,具有一套看起来象磁带录制机控制键的图像动画控制键,用于逐个显示NMR获得的多个结构“集合总体“或VAST相似性关系图像中的重叠结构。“GO”键使图像形成动画,当图像以动画形式显示时。用户可以旋转或放缩结构。发行前景被看好的Cn3D 2.0将具有完整的状态存储能力,使结构彩色化描述,以ASN.1结构记录形式存储信息和手工编制PDB文件或手写文本更新成为可能。这些信息可以被不同工作平台的用户共享。
其它三维浏览器:Mage、CAD和VRML
各类文件格式已被用于表示缺少化学细节的数据表达的三维生物高聚物结构数据。普通的浏览器,例如那些用于处理“宏观”数据的工程软件或虚拟现实浏览器,可用于浏览这些文件格式。“Protein Science”杂志出版了这样一个通用文件格式:Kinemage(Richardson和Richardson,1992,1994)。这是第一个被广泛运用的分子结构软件,在因特网和WWW网出现之前,是个人计算机用户的通用软件。象Kinemage和VRML这样的文件格式包括三维图像显示信息,而几乎没有关于基本分子化学图像的信息。并且,在这样的文件中编码各类描述文件是困难的。分子填充模型、金属框架模型和球棒模型等各自需要单独的VRML文件,因为在文件中必须包括每一个图像物体(圆柱体、线、球体)的明确列表。
生物分子三维结构数据库记录目前与例如基于CAD软件的那些“宏观”软件工具是不兼容的,计算机辅助设计软件技术是成熟并且具有鲁棒性的,一般优于可利用的分子结构软件。但CAD软件和文件格式由于缺少某种用于蛋白质结构细节观察的“专门“视角和分析功能,而不能在分子研究领域中完全适用。
查找出版的结构
作为几乎所有结构功能信息的基础,结构是真正有价值的数据,以至于一些结构科学家不情愿将他们的数据移交给公共数据库。过去,一些杂志没有要求立刻将结构提交给Brookhaven Protein Data Bank。由于作者从未扰乱或从未选择不将他们的数据提交给公共数据库,而导致了“不合法”的结构的增加,这种情况往往是由于用于确定结构的准则的某一部分具有多种可能性造成的。随着新的成功的折叠识别技术(如threading)的出现,结构的“holding back”导致发现机会的丧失。新的计算方法依靠完整的三维结构数据库。
告诉一个结构的著者应从出版的著作而不是从这里列出的数据库中获得三维结构是必要的。在获得结构之前,结构科学家应首先找到描述感兴趣坐标的原始文献。下一步,利用Brookhaven Protein Data Bank中的“Pending/Waiting List”进行完全的检索,看看是否结构数据正在被处理或仍在“架上“。如果这些可能性已被排除,给文献的主要著者发封信,直接从中获取坐标信息。通常,著者将提供原始的PDB文件,这种文件能够在其他研究者的PDB软件中浏览之前,尚需要一些编辑(通常是重编号)。如果必须编辑PDB文件,应首先学习其它PDB文件的结构及查阅在线的PDB格式文本。
1.格式描述的基本概念
字符集合
只是一些非控制型字符,象空格和结束符,出现在PDB文件记录中。也就是:abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ 1234567890 ` - = [ ] ;
' , . / ~ ! @ # $ % ^ & * ( ) _ + { } | : " < > ? 空格和结束符。结束符根据系统而定,Unix用一行字符,而其他的系统可能就用一个回车来表示。
特殊字符
希腊字母就详细的拼写出来。比如:α, β, γ
原子用DOT表示。
右箭头用-->表示。
左箭头用<--表示。
上标用两个等号表示开始和结束。比如:S==2+==
下标用一个等号来表示开始和结束。比如:F=c=
如果等号两边至少有一边有一个空格,那么这个字符就是表示等号。比如:2 + 4 = 6
逗号,冒号和括号用来表示文档中的分界苻,也就是下面几种中的一种:
List
SList
Specification List
Specification
如果逗号,冒号或者括号在任何一片文档中使用不是作为分界苻的话,那么肯定有字符被漏掉了。比如下边例子中第四行的"":
COMPND MOL_ID: 1;
COMPND 2 MOLECULE: GLUTATHIONE SYNTHETASE;
COMPND 3 CHAIN: NULL;
COMPND 4 SYNONYM: GAMMA-L-GLUTAMYL-L-CYSTEINE:GLYCINE LIGASE
COMPND 5 (ADP-FORMING);
COMPND 6 EC: 6.3.2.3;
COMPND 7 ENGINEERED: YES
COMPND MOL_ID: 1;
COMPND 2 MOLECULE: S-ADENOSYLMETHIONINE SYNTHETASE;
COMPND 3 CHAIN: A, B;
COMPND 4 SYNONYM: MAT, ATP:L-METHIONINE S-ADENOSYLTRANSFERASE;
COMPND 5 EC: 2.5.1.6;
COMPND 6 ENGINEERED: YES;
COMPND 7 BIOLOGICAL_UNIT: TETRAMER;
COMPND 8 OTHER_DETAILS: TETRAGONAL MODIFICATION
2.数据格式
每个PDB文件可能分割成一系列行,由行终止符终止.在记录文件中每行由80列组成.每条PDB记录末尾标志应该是行终止符.PDB文件中每行都是自我识别的.每行的前六列存放记
录名称,左对齐空格补足.必须和规定的记录名称一致. PDB文件也可看成是各种记录类型的总和.每个记录类型包括一行或多行又被更深一层分成各字段.该文件详细描述了每个数据类型,一般包括如下几部分:
综述
记录格式
细节
例子
3. 记录类型
按照在记录中出现的频率区分:
SINGLE
一个文件中只出现一次.按字母顺序列出如下:
记录类型
CRYST1
END
HEADER
MASTER
ORIGXn
SCALEn
说明
晶胞参数
结束
分子类,公布日期,ID号
版权拥有者
直角-PDB坐标
直角部分结晶学坐标
如果这些记录在一个记录中重复出现是错误的。
SINGLE CONTINUED
在记录中概念性的只出现一次,但信息内容可能超过了可利用列的数目.因次这些记录在后来的排列中会继续.按字母顺序列出如下:
记录类型
AUTHOR
CAVEAT
COMPND
EXPDTA
KEYWDS
OBSLTE
SOURCE
SPRSDE
TITLE
说明
结构测定者
可能的错误提示
化合物名称
测定结构所用的试验方法
关键词
注明该id号已改为新号
化合物来源
已撤消或更改的相关记录
说明试验方法类型
MULTIPLE
大部分记录类型多次出现,经常出现在这些组中,组中的信息理论上并没有连接,但已呈现为列表的组成部分.这种记录类型中的许多习惯连载可能不仅仅制定记录还和其他记录相联.按字母顺序列出如下:
记录类型
ANISOU
ATOM
CISPEP
说明
温度因子
标准基因的原子坐标
顺势残基
CONECT
DBREF
HELIX
HET
HETSYM
HYDBND
LINK
MODRES
MTRIXn
REVDAT
SEQADV
SEQRES
SHEET
SIGATM
SIGUIJ
SITE
SLTBRG
SSBOND
TURN
TVECT
有关记录
其他序列库的有关记录
螺旋
非标准残基
非标准残基的同义字
氢键
残基间化学键
对标准残基的修饰
显示非晶相对称
修订日期及相关内容
PDB与其它记录的出入
残基序列
片层
标准差
温度因子
特性位点
盐桥
二硫键
转折
转换因子
Multiple Continued
在记录中概念性的出现多次,但信息内容可能超过了可利用列的数目.因次这些记录在后来的排列中会继续.按字母顺序列出如下:
记录类型
FORMUL
HETATM
HETNAM
说明
非标准残基化学式
非标准集团原子坐标
非标准残基的化学名称
Grouping
有三种记录类型用来聚合其他记录. 按字母顺序列出如下:
记录类型
ENDMDL
MODEL
TER
说明
亚基结束
多亚基时,示亚基号
链末端
MODEL/ENDMDL 记录包围着 ATOM, HETATM, SIGATM, ANISOU, SIGUIJ,和 TER 记录.
TER 记录预示链的末端.
Other
其他记录类型有详细的内部结构.按字母顺序列出如下:
记录类型
JRNL
REMARK
说明
发表坐标集的文献
注解
4.记录的表示
记录部分的划分
HEADER, OBSLTE,
TITLE,CAVEAT, COMPND,
SOURCE,KEYWDS,
EXPDTA, AUTHOR,REVDAT,
SPRSDE, JRNL
Title
大概描述
Remark
参考书目,最大分辨率,注解REMARKs 1, 2, 3 and others
等
一级结构 氨基酸或核苷酸序DBREF, SEQADV,
列和PDB序列与其他序列库SEQRES,MODRES
的有关记录
不标准组的描述
二级结构
化学元素连接
大分子的特征
晶体细胞描述
坐标描述
HET, HETNAM, HETSYN,
FORMUL
HELIX, SHEET, TURN
SSBOND, LINK, HYDBND,
SLTBRG,CISPEP
SITE
CRYST1
ORIGXn, SCALEn, MTRIXn,
TVECT
MODEL, ATOM,
SIGATM,ANISOU, SIGUIJ,
TER, HETATM, ENDMDL
CONECT
MASTER, END
Primary structure
Heterogen
Secondary structure
Connectivity annotation
Miscellaneous feature
Crystallographic
Coordinate transformation
Coordinate
Connectivity
Bookkeeping
数据类型
Achar
Atom
Character
Continuation
Date
描述
原子坐标数据
化学键连接
概要信息和结束标志
5.对数据类型的说明
一个英文字母(A-Z,a-z)
原子名
ASCII码和空格
如果一行描述不完用此表示序列号,占两个字符右对齐,第一个用空格
占九个字符dd-mmm-yy, DD表日期,右对齐不足左补零;MMM表月份用常用的三个英文字母表示;YY表20世纪的一年,他们都必须是有效日期
占四个字符,第一个是阿拉伯数字(0-9),余下的三个由希腊数字组成,字母必须是大写的。若第一个是阿拉伯数字零则对此蛋白质的描述中没有坐标数据
右对齐,不足的用空格填充的整型数据
由一组没有空格的字符组成,结尾部分紧跟着冒号和空格
一个由逗号分开的字符串
IDcode
Integer
Token
List
Lstring
LString(n)
Real(n,m)
Record name
Residue name
Slist
Specification
Specification list
String
String(n)
SymOP
字符串,任何空格都有意义必须保存
有N个字符的Lstring
实型
记录的名字,由六个字符组成,左对齐,不足的用空格补充
右对齐格式标准氨基酸或核苷酸中的一个,后有列表.不标准组分在HET中详细说明
由一些内容组成的字符串,有分号分开
由一些token记录组成的字符串,由冒号分开
由Specifications组成的序列,由分号分开
由字符组成的序列,可能有些空格,但应该详细说明
由N个字符组成String
由4-6个数字组成的整数,右对齐格式.详细资料在Appendix 1
6.残基名字
在PDB格式中出现的标准残基的名字:
残基类型
氨基酸
核酸
其他
残基名字
ALA, ARG, ASN, ASP, CYS, GLN, GLU, GLY, HIS, ILE,
LEU, LYS
A, C, G, T, U, I, +A, +C, +G, +T, +U, +I
UNK(unknown)
Appendix 4中有更多关于标准残基名和缩写的信息, Appendix 5中有他们的化学式和分子量.
二 标题部分
1 HEADER(分子类,公布日期、ID号)
2 OBSLTE (注明此ID号已改为新号)
3 TITLE(说明实验方法类型)
4 CAVEAT(可能的错误提示)
5 COMPND(化合物分子组成)
6 SOURCE(化合物来源)
7 KEYWDS(关键词)
8 EXPDTA(测定结构所用的实验方法)
9 AUTHOR(结构测定者)
10 REVDAT(修订日期及相关内容)
11 SPRSDE(已撤销或更改的相关记录)
12 JRNL(发表坐标集的文献)
13 REMARK
REMARK 1(有关文献)
REMARK 2(最大分辨率)
REMARK 3(用到的程序和统计方法)
REMARK 4-999
三 一级结构
1 DBREF (其他序列库的有关记录)
2 SEQADV ( PDB与其他记录的出入)
3 SEQRES (残基序列)
4 MODRES (对标准残基的修饰)
四 杂因子
1 HET(非标准残基)
2 HETNAM(非标准残基的名称)
3 HETSNY (非标准残基的同义字)
4 FORMOL(非标准残基的化学式)
五 二级结构
1 HELIX(螺旋)
2 SHEET(折叠片)
3 TURN(转角)
六 连接注释
1 SSBOND(二硫键)
2 LINK(残基间化学键)
3 HYDBND(氢键)
4 SLTBRG(盐桥)
5 CISPEP(顺式残基)
七 晶胞特征及坐标变换
1 CRYST1(晶胞参数)
2 ORIGXn(直角-PDB坐标)
3 SCALEn(直角-部分结晶学坐标)
4 MTRIXn(非晶相对称)
5 TVECT(转换因子)
八 坐标部分
1 MODEL(多亚基时示亚基号)
2 ATOM(标准基团的原子坐标)
3 SIGATM(标准差)
4 ANISOU(温度因子)
5 SIGUIJ(各种温度因素导致的标准差)
6 TER(链末端)
7 HETATM(非标准基团原子坐标)
8 ENDMDL(亚基结束)
九 连通性部分
CONECT(原子间的连通性有关记录)
十 簿记
1 MASTER (版权拥有者)
2 END(文件结束)


发布评论