2024年3月6日发(作者:)
生物信息学是一个较新的学科领域,它涵概了对基因组信息的多个研究过程,通过综合运用生物学、信息学、统计学、数学等工具和手段,来阐明和理解生物数据,使之成为具有明确生物意义的生物信息,并通过对生物信息的查询、检索、比较和分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系。蛋白质是生命体赖以生存的营养要素,是细胞组织的重要组成部分,几乎所有的生物过程都与蛋白质发生某种联系。根据蛋白质序列的排列顺序和序列信息确定蛋白质的功能成为生物学研究重点。它的主要研究方法可分为两大类,其一是利用实际实验的方法来预测,包括X光绕射和核磁共振;其二则是利用理论计算的方法,包括同源建模法、折叠识别法以及从头预测法三种。虽然用实验的方法较为准确,但花费的时间长,而且很多蛋白质难以结晶,因而实验结果也受到技术和设备上的制约;相对而言,用理论计算的方法则可以避免这些缺点,所以发展基于蛋白质序列对结构和功能进行预测的模型成为必要。
由于生物数据的复杂性和高维性,既不能以数字公式表示,也不能以逻辑公式表示,故对这些序列的研究大多是基于统计工具。此外,通过数据的可视化,帮助人们认识和理解生物序列,进而分析和解释数据,使人们从表面上看来是杂乱无章的海量数据中找出隐藏的规律,为科学发现提供依据。所以,现在有些学者开始借助各种可视化工具,以图、树、方体、链的形式展现其复杂结构和序列模式,以求直观地表达生物序列的理论结构与区别。常用的生物数据可视化工具有语义镜技术、信息壁技术、基因调控网格等。同时,将经过数据挖掘工具得到的数据结果也以图形、图像的形式展现给用户,便于用户寻找数据间规律和关系。
目前对于DNA(RNA)序列的二维和三维重构方面的工作已经取得较大的进展,但对于蛋白质等大分子在这方面的工作还有待于深入。此外,通过对蛋白质结构和功能的分析,能获取隐含其中的有用生物学信息,为我们理解生命、发现新药物和新疗法提供帮助。蛋白质是由20个氨基酸按不同排列构成,因此,蛋白质类型分析从某种意义上说就是对序列数据的挖掘。
(1)请根据你的调查写一份关于对DNA可视化工作方面的科学报告。要求在阐明这项工作原理的基础上,重点强调它的意义和影响;报告要条理清晰,易读易懂,字数不少于800。
(2)蛋白质序列由20氨基酸构成,设一个长度为L的蛋白质序列表示如下:
PR1R2R3R4RL 其中,Ri表示蛋白质序列中第i个出现的氨基酸,它是{A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、Y}中的某一个。如果利用正二十面体的每个面的方向向量代表20个氨基酸,请结合DNA可视化方面工作对你的启发构造合适的对应关系和分析模型,以区别开如下两类不同的蛋白质序列,并画出部分序列的图形(二维或三维均可,重点是要清楚讲明你的模型和想法,可参考CGR-游走序列的方法),以说明你模型的特点和创造性。
第一类: 11 个
>P04855
MTAYIQRSQCISTSLLVVLTTLVSCQIPRDRLSNIGVIVDEGKSLKIAGSHESRYIVLSLVPGVDFENGCGTAQVIQYKSLLNRLLIPLRDALDLQEALITVTNDTTQNAGAPQSRFFGA
VIGTIALGVATSAQITAGIALAEAREAKRDIALIKESMTKTHKSIELLQNAVGEQILALK
TLQDFVNDEIKPAISELGCETAALRLGIKLTQHYSELLTAFGSNFGTIGEKSLTLQALSS
LYSANITEIMTTIKTGQSNIYDVIYTEQIKGTVIDVDLERYMVTLSVKIPILSEVPGVLI
HKASSISYNIDGEEWYVTVPSHILSRASFLGGADITDCVESRLTYICPRDPAQLIPDSQQ
KCILGDTTRCPVTKVVDSLIPKFAFVNGGVVANCIASTCTCGTGRRPISQDRSKGVVFLT
HDNCGLIGVNGVELYANRRGHDATWGVQNLTVGPAIAIRPIDISLNLADATNFLQDSKAE
LEKARKILSEVGRWYNSRETVITIIVVMVVILVVIIVIIIVLYRLRRSMLMGNPDDRIPR
DTYTLEPKIRHMYTNGGFDAMAEKR
>P21285
MYGIEYTTILTILISIVLLNYILKSITSMMDFIIYRFLLVFVIVLPFIKAQNYGINLPIT
GSMDTAYVNSTQQESFMTSTLCLYYPNSVTTEITDPDWTHTLSQLFLTKGWPTNSVYFKS
YADIASFSVNPQLYCDYNIVLVQYQNSLALDVSELADLILNEWLCNPMDVTLYYYQQTDE
ANKWISMGDSCTVKVCPLNMQTLGIGCTTTDVATFEEVANAEKLVITDVVDGVNHKINIT
LNTCTIQNCKKLGPRENVAIIQVGGSDIIDITADPTTIPQTERIMRINWKKWWQVFYTVV
DYINQIVQVMSKRSRSLNSAAFYYRI
>P29821
MYSTKCTNFFLEIIFYVIFCTLFLLVLEKMSKLLSWIVIVCLFVFAISSKCSAQNYGINV
PITGSMDVVLANSTQDQIGLTSTLCIYYPKAADTEIADPEWKATVTQLLLTKGWPTTSVY
LNEYQDLVTFSNDPKLYCDYNIVLAHYTNDVALDISELAEFLLYEWLCNPMDVTLYYYQQTSEPNKWIAMGTNCTIKVCPLNTQTLGIGCQTTNTDTFEILTMSEKLAIIDVVDGVNHKV
DYTVATCKINNCIRLNPRENVAIIQVGGPEVLDISENPMVIPKVSRMTRMNWKKWWQVFYTIVDYINTIITTMSKRSRSLDVSSYYYRV
>Q03874
MYGIECTTILTFLISLILLNYILQLLTRIMDFIIYRFLFIIVFLSPFLKAQNYGINLPISGSMDTAYVNSTQENIFLTSTLCLYYPTEAATQIDDSSWKDTISQLFLTKGWPAGSVYLKEYTDITSFSIDPQLYCDYNVVLMKYDEALQLDMSELADLILNEWLCNPMDITLYYYQQTDEANKWISMGSSCTIKVCPLNTQTLGIGCLTTNVATFEEVATSEKLVIKDVVDGVDHKVECTTTTCTIRNCKKLGPRENVAIIQVGGSDILDITADPTTAPQIARMMRINWKKWWQVFYTVVDYINQIVQVMSKRSRSLDSAAFYYRI
>P09365
MYGIEYTTVLLYLISFVLMSYILKTITKMMDYIIYRITFIIVVLSVLSNAQNYGINLPITGSMDTAYANSTQDNNFLSSTLCLYYPSEAPTQINDNEWKDTLSQLFLTKGWPTGSVYFNEYSNVLEFSIDPKLHCDYNIVLIRFASGEELDISELADLILNEWLCNPMDITLYYYQQTGEANKWISMGSSCTVKVCPLNTQTLGIGCQTTNTATFETVADSEKLAIVDVVDSVNHKLDVTSTTCTIRNCNKLGPRENVAIIQVGGSNILDITANPTTSPQTERMMRVNWKKWWQVFYTVVDYINQIVQVMSKRSRSLDSSSFYYRV
>P52638
MQPSMSFLIGFGTLVLVLSARTFDLQGLSCNTDSTPGLIDLEIRRLCHTPTENVISCEVSYLNHTTISLPAVHTSCLKYHCKTYWGFFGSYSADRIINRYTGTVKGCLNNSAPEDPFECNWFYCCSAITTEICRCSITNVTVAVQTFPPFMYCSFADCSTVSQQELESGKAMLSDGSTLTYTPYILQSEVVNKTLNGTILCNSSSKIVSFDEFRRSYSLTNGSYQSSSINVTCANYTSSC
PRLKRRRRDTQQIEYLVHKLRPTLKDAWEDCEILQSLLLGVFGTGIASASQFLRSWLNH
PDIIGYIVNGVGVVWQCHRVNVTFMAWNESTYYPPVDYNGRKYFLNDEGRLQTNTPEARPGLKRVMWFGRYFLGTVGSGVKPRRIRYNKTSHDYHLEEFEASLNMTPQTSIASGHETDPINHAYGTQADLLPYTRSSNITSTDTGSGWVHIGLPSFAFLNPLGWLRDLLAWAAWLGGVLYLISLCVSLPASFARRRRLGR
>P36357
MYSTECTILLIEIIFYFLAAIILYDMLHKMANSPLLCIAVLTVTLAVTSKCYAQNYGINVPITGSMDVAVPNKTDDQIGLSSTLCIYYPKEAATQMNDAEWKSTVTQLLLAKGWPTTSVYLNEYADLQSFSNDPQLNCDYNIILAKYDQNETLDMSELAELLLYEWLCNPMDVTLYYYQQTSE
SNKWIAMGSDCTIKVCPLNTQTLGIGCKTTDVSTFEELTTTEKLAIIDVVDGVNHKANYTISTCTIKNCIRLDPRENVAIIQVGGPEIIDISEDPMVVPHVQRATRINWKKWWQIFYTVVDYINTIIQAMSKRSRSLNTSAYYFRV
>P04511
MYGIEYTTILIFLTSITLLNYILKSITRMMDYIIYRFLLIVVILATIINAQNYGVNLPITGSMDTAYADSTQSEPFLTSTLCLYYPVEASNEIADTEWKDTLSQLFLTKGWPTGSVYLKEYADIAAFSVEPQLYCDYNLVLMKYDSTQELDMSELADLILNEWLCNPMDITLYYYQQTDEANKWISTGSSCTVKVCPLNTQTLGIGCLITNPDTFETVATMEKLVITDVVDGVNHKLNVTTATCTIRNCKKLGPRENVAVIQVGGANVLDITADPTTTPQTERMMRINWKKWWQVFYTVVDYVNQIIQTMSKRSRSLNSSAFYYRV
>P03532
MYGIEYTTILIFLISIILLNYILKSVTRIMDYIIYRFLLITVALFALTRAQNYGLNLPITGSMDAVYTNSTQEEVFLTSTLCLYYPTEASTQINDGDWKDSLSQMFLTKGWPTGSVYFKEYSNIVDFSVDPQLYCDYNLVLMKYDQSLELDMSELADLILNEWLCNPMDVTLYYYQQSGESNKWISMGSSCTVKVCPLNTQTLGIGCQTTNVDSFEMIAENEKLAIVDVVDGINHKINLTTTTCTIRNCKKLGPRENVAVIQVGGSNVLDITADPTTNPQTERMMRVNWKKWWQVFYTIVDYINQIVQVMSKRSRSLNSAAFYYRV
>P25176
MYGIEYTTILTFFVSFIILDYTIKTLTRAMDFIIYRFLLVVVILSPLLTAQNYGINLPITGSMDTAYANSTQEENFLVSTLCLYYPNEVVSELNDDSWKNTLSQLFLTKGWPTGSVYFNEYSDIASFSINPQLYCDYNIVVVKYSTELQLDISELANLILNEWLCNPMDITLYYYQQTDETNKWISTGTSCTVKVCPLNTQTLGIGCLTTDTETFEEVATLEKLVITDVVDGVNHKINLTTATCTIRNCKKLGPRENVAIIQVGRSSTIDITADPTTMPQTERMMRINWKKWWQVFYTIVDYVNQIIQVMSKRSRSLDAAEFYYRV
>P04328
MYGIEYTTILTILISIILLNYILKTITNTMDYIIFRFLLLIALISPFVRTQNYGMYLPITGSLDAVYTNSTSGEPFLTSTLCLYYPAEAKNEISDDEWENTLSQLFLTKGWPIGSVYFKDYNDINTFSVNPQLYCDYNVVLMRYDNTSELDASELADLILNEWLCNPMDISLYYYQQSSESNKWISMGTDCTVKVCPLNTQTLGIGCKTTDVNTFEIVASSEKLVITDVVNGVNHNINISINTCTIRNCNKLGPRENVAIIQVGGPNALDITADPTTVPQVQRIMRINWKKWWQVFYTVVDYINQVIQVMSKRSRSLDAAAFYYRI
第二类12 个
>Q98157
MDTKGILLVAVLTALLCLQSGDTLGASWHRPDKCCLGYQKRPLPQVLLSSWYPTSQLCSKPGVIFLTKRGRQVCADKSKDWVKKLMQQLPVTAR
>P15240
MLKRSLLFLTVLLLLFSFSSITNEVSASSSFDKGKYKKGDDASYFEPTGPYLMVNVTGVD
GKRNELLSPRYVEFPIKPGTTLTKEKIEYYVEWALDATAYKEFRVVELDPSAKIEVTYYDKNKKKEETKSFPITEKGFVVPDLSEHIKNPGFNLITKVVIEKK
>Q66811
MGASGILQLPRERFRKTSFFVWVIILFHKVFSIPLGVVHNNTLQVSDIDKFVCRDKLSSTSQLKSVGLNLEGNGVATDVPTATKRWGFRAGVPPKVVNYEAGEWAENCYNLAIKKVDGSECLPEAPEGVRDFPRCRYVHKVSGTGPCPGGLAFHKEGAFFLYDRLASTIIYRGTTFAEGVIAFLILPKARKDFFQSPPLHEPANMTTDPSSYYHTTTINYVVDNFGTNTTEFLFQVDHLTYVQL
EARFTPQFLVLLNETIYSDNRRSNTTGKLIWKINPTVDTSMGEWAFWENKKTSQKPFQVKSCLSYLYQKPRTRSLTRQRRSLLPSPPTTTQAKTTKNWFQRIPLQWFRCKTSRERTQCQPQ
>P16948
MLIFSVLMYLGLLLAGASALPNGLSPRNNAFCAGFGLSCKWECWCTAHGTGNELRYATAA
GCGDHLSKSYYDARAGHCLFSDDLRNQFYSHCSSLNNNMSCRSLSKRTIQDSATDTVDLGAELHRDDPPPTASDIGKRGKRPRPVMCQCVDTTNGGVRLDAVTRAACSIDSFIDGYYTEKDGFCRAKYSWDLFTSGQFYQACLRYSHAGTNCQPDPQYE
>P15879
MKGLRKSILCLVLSAGVIAPVTSGMIQSPQKCYAYSINQKAYSNTYQEFTNIDQAKAWGNAQYKKYGLSKSEKEAIVSYTKSASEINGKLRQNKGVINGFPSNLIKQVELLDKSFNKMKTPENIMLFRGDDPAYLGTEFQNTLLNSNGTINKTAFEKAKAKFLNKDRLEYGYISTSLMNVSQFAGRPIITKFKVAKGSKAGYIDPISAFAGQLEMLLPRHSTYHIDDMRLSSDGKQIIITATMMGTAINP
>O40633
MTFRKTSLVLLLLLSIDCIVKSEITSAQTPRCLAANNSFPRSVMVTLSIRNWNTSSKRASDYYNRSTSPWTLYRNEDQDRYPSVIWEAKCRYLGCVNADGNVDYHMNSVPIQQEILVVRKGHNPCPNSFRLEKMLVTVGCTCVTPIVHNV
>O11458
MGVTGILQLPRDRFKRTSFFLWVIILFQRTFSIPLGVIHNSTLQVSDVDKLVCRDKLSSTNQLRSVGLNLEGNGVATDVPSATKRWGFRSGVPPKVVNYEAGEWAENCYNLEIKKPDGSECLPAAPDGIRGFPRCRYVHKVSGTGPCAGDFAFHKEGAFFLYDRLASTVIYRGTTFAEGVVAFLILPQAKKDFFSSHPLREPVNATEDPSSGYYSTTIRYQATGFGTNETEYLFEVDNLTYVQLESRFTPQFLLQLNETRYTSGKRSNTTGKLIWKVNPEIDTTIGEWAFWETKKTSLEKFAVKSCLSQLYQTEPKTSVVRVRRELLPTQGPTQQLKTTKSWLQKIPLQWFKCTVKEGKLQCRI
>P60172
MEGLSLLQLPRDKFRKSSFFVWVIILFQKAFSMPLGVVTNSTLEVTEIDQLVCKDHLASTDQLKSVGLNLEGSGVSTDIPSATKRWGFRSGVPPQVVSYEAGEWAENCYNLEIKKPDGSECLPPPPDGVRGFPRCRYVHKAQGTGPCPGDYAFHKDGAFFLYDRLASTVIYRGVNFAEGVIAFLILAKPKETFLQSPPIREAANYTENTSSYYATSYLEYEIENFGAQHSTTLFKINNNTFVLLDRPHTPQFLFQLNDTIQLHQQLSNTTGKLIWTLDANINADIGEWAFWENKKISPNNYVEKSCLSKLYRSTRQKTMMRHRRELQREESPTGPPGSIRTWFQRIPLGWFHCTYQKGKQHCRLRIRQKVEE
>Q00901
MKGIRKSILCLVLSAGVIAPVTTSIVQSPQKCYACTVDKGSYADTFTEFTNVEEAKKWGN
AQYKKYGLSKPEQEAIKFYTRDASKINGPLRANQGNENGLPADILQKVKLIDQSFSKMKMPQNIILFRGDDPAYLGPEFQDKILNKDGTINKTVFEQVKAKFLKKDRTEYGYISTSLMSAQFGGRPIVTKFKVTNGSKGGYIDPISYFPGQLEVLLPRNNSYYISDMQISPNNRQIMITAMIFK
>O10286
MKFSTILLLVCPTVALSAQYALACTETGRNCQYSYECCSGACSAAFGFCL
>O73559
MKSVLYSYILFLSCIIINGRDIAPHAPSNGKCKDNEYNRHNLCCLSCPPGTYASRLCDSKTNTNTQCTPCGSGTFTSRNNHLPACLSCNGRCDSNQVETRSCNTTHNRICECAPGYYCLLKGSSGCKACVSQTKCGIGYGVSGHTSTGDVVCSPCGLGTYSHTVSSADKCEPVPSNTFNYIDVEINLYPVNDTSCTRTTTTGLSESISTSELTITMNHKDCDPVFRDGYFSVLNKVATSGFFTGEN
RYQNISKVCTLNFEIKCNNKDSSSKQLTKTKNDDGIMPHSETVTLVGDCLSSVDIYILYSNTNTQDYETDTISYHVGNVLDVDSHMPGSCDIHKLITNSKPTRF
>P41416
MQIKTVLLAFAMFAALNAQHVLAACAETGAVCVHNDECCSGACSPIFNYC
说明:(1)“>”后面是蛋白质序列的编号,也就是序列的“代号”;
(2)如果序列中有不是前面提到的20个字母中的(如:出现B,J,O,U,X,Z等),可以忽略;
(3)以给出的这两类序列来评估你的方法的有效性,即用你的方法得到的这两类序列分类的准确率;
(4)如果要用这种方法从图形上区别开这两类蛋白质,请画出你对这23个序列的图形,说明图形中所映的同一类的共同点和不同类的差异。
资料:
为识别一个新发现的基因和一个已知基因家族之间的进化关系,确定他们的同源性或相似性,通常需要序列比对,找出它们之间的最大匹配,从而定量给出其相似程度。由于序列数据是非数字的,其内部不同种类核苷酸之间的精确交叉扮演着重要的角色。因此探索高效的搜索和比对算法在序列分析中非常重要。
语义镜技术( 在数据库技术基础上比较显示多因素组合导致的生物现象); 信息壁技术(利用有限屏幕显示海量生物分子信息); 基因调控网络、/ 聚焦+ 关联0技术(主要用于交互显示不同范围内目标数据的整体相关性) ; 基因调控网络( 表现生物分子相互作用、复合及作用路径等生物信息新的可视化技术, 它力图在大批不同数据中识别潜在的生物模式, 推断更复杂的关系)
[ 6]
。借助于可视化技术可对生物数据进行挖掘分析, 有效地促进科研人员的研究。
蛋白质的功能主要决定于它们的三维结构, 因此,对蛋白质空间结构的认识已成为生命科学中很迫切的问题。目前蛋白质结构预测主要方法有/ 同源模建0、/ 折叠识别0以及/ 从头预测0等[ 7]。国际上为鼓励这方面的研究, 几乎每年都组织蛋白质结构预测技术评比的活动, 即CASP( The Critical
Appraisal Skills Programme, http: / / pre2dictioncenter. llnl. gov/ ) , 这是世界范围内可视化技术的大比武。
蛋白质二级结构预测从方法的角度上大致可分为四大类: 统计学方法、多重序列联配法、二级结构基序(Mo2tif) 法、ANN 法(Artificial neural network, 人工神经网络模型) 。前三种方法由于在预测精度上不够理想, 近年几乎没有大的发展, 而ANN 方法由于它的方法多样、适于计算机计算以及精度较好而受到广大研究者的重视
' 3. 3 MATLAB下蛋白质三维结构可视化实现
在分析了蛋白质存储结构的基础上,接下来的问题就是如何进行蛋白质三维
结构可视化。国际上有现成的蛋白质可视化软件,如Cn3D-4.1, RasMol 2.7.3等,
但是,这些软件只提供对蛋白质的三维观察,我们没办法从其中提取有用的数据
进行后续的分析,所以对蛋白质的可视化工作势在必行,它是我们后续研究工作
必不可少的重要一环。
在MATLAB中,我们可采用两种方法实现对PDB中蛋白质内容的提取,一是
利用Importdata函数,另一是利用Open函数。
表3.3蛋白质数据结构
Header: [1x1 struct]
Title:
Compound:
Source:
Keywords:
ExperimentData:
Authors:
RevisionDate:
Journal:
Remarkl:
Remark2:
Remark3:
Remark4:
Remark200:
Remark280:
Remark290:
Remark850:
DBReferences:
Sequence:
Heterogen:
HeterogenName:
HeterogenSynonym:
Formula:
Helix:
Link:
Crystl:
OriginX:
Scale:
Atom:
Terminal:
HeterogenAtom:
Connectivity:
,LEGHEMOGLOBIN A (ACETOMET)’
[5x26 char]
[4x35 char]
,HEME, NITROGEN FIXATION, MULTIGENE FAMILY, OXYGEN TRANSPORT
,X-RAY DIFFRACTION'
,E. A. BRUCKER, M. S. HARGROVE, G. N. PHILLIPS JR.’
[1x2 struct]
[1x1 struct]
[1x1 struct]
[1x1 struct]
[2x59 char]
[48x59 char]
[6x59 char]
[32x59 char]
[4x59 char]
[1x2 struct]
[1x2 struct]
[1x5 struct]
[1x3 struct]
[1x1 struct]
[1x4 struct]
[1x16 struct]
[1x4 struct]
[1x1 struct]
[1x3 struct]
[1x3 struct]
[1x2158 struct]
[1x2 struct]
[1x234 struct]
[1x103 struct]
利用Importdata函数可以迅速获取蛋白质的数据结构(见表3.3),但因蛋白质
文件在不同历史时期产生会在格式上有一些小变化,这种变化极大的影响数据结
构格式,所以Importdata在通用性上不够。
利用Open函数结合Fscanf或Fgets也可进行蛋白质内容的读取,而且通用性
强,我们即采用此方式,所绘蛋白质三维结构图如图3.1所示。
生物信息学中的结构比较以蛋白质结构比较为主。从整体上看,该比较可分
为两种情况:全局比较和局部比较。要对蛋白质进行归类,一般采用对蛋白质结
构进行相似性比较,根据比较的结果再行分类。最初人们采用刚性叠加方法,即
对蛋白质的空间结构进行平移和旋转找寻两蛋白间的对应残基,如果对应残基空
间距离足够小(一般取3人),就视为拓扑等价残基对。通过动态归划〔T089] [Tay99]
算法进行比对并迭代调整这种空间叠加,使得全部残基对的均方根距离(root
mean square, RMS)达到最小,而拓扑等价残基对数目达到最大,此时即得到最佳
的刚性叠加【ZD93]。针对RMS有两种计算方法:cRMS与dRMS o cRMS是两蛋
白间的标准矢量距离,dRMS则可用来比较每个蛋白各自的距离矩阵之间的差
别。假设两蛋白已进行最佳刚性叠加,则:
其中N是等价残基的原子数目,x和v分别是蛋白质A与B的第1个索引原子的坐标。
其中d犷表示A蛋白内部原子i勺之间的距离,d;代表B蛋白对应的内部距
离。RMS的计算方法有它的局限性:仅适于相近的蛋白质之间的比较,为此人
们后来不断对其进行改进,在此基础上又拓展出各种不同的计分方法【Koe01]o


发布评论