2024年1月12日发(作者:)
《生物信息学》第五章:蛋白质结构预测与分析(第一部分)
蛋白质的二级结构:PDB获取
PDB数据库中,一个蛋白质结构记录中的二级结构信息在Sequence标签下(图1)。从序列图形化部分可以看到二级结构对应在一级结构上的图形化表示。点击左侧的“View
Sequence & DSSP Image”可以获得直观的一级结构对二级结构的序列表示(图2)。图2中的序列有两行,上面的一行是一级结构,下面的是二级结构。这个页面看上去很不错,序列10个字母一间隔,50个字母一行,而且不同的二级结构还对应不同的字母颜色。但是在接下来的分析研究工作中,我们往往需要的是像氨基酸序列那样的FASTA格式的二级结构序列。想要从这个网页上单独保存下二级结构序列是很麻烦的事儿。需要一行一行的拷贝黏贴,还需要删除行号。有位困难的是去除其中的空格,因为很难区分是格式里的空格还是代表松散结构的空格。所以,这种形式的二级结构信息便于浏览,但是不便于保存。非常遗憾的是,PDB里没有现成的针对某一个蛋白质的FASTA格式二级结构序列下载链接。“Download
FASTA File”链接只能下载FASTA格式的一级结构序列,也就是氨基酸序列。
图1. PDB数据库图形化二级结构和DSSP文件下载链接
图2. PDB中的一级结构序列和二级结构序列对应图
此外,PDB数据库中有一个叫做“”的文件:/pdb/files/
(压缩文件30.6M)。这个文件里面有PDB所有蛋白质结构的一级和二级结构的FASTA格式序列。但是这个文件非常大!仅仅打开文件就要耗费许久时间,使用起来相当的不方便。那难道就没个方便快捷的好办法,可以一下子拿到某一个蛋白质的二级结构序列吗?当然有。你可以用老师我自己编写的小程序1.51.215.28/~gongj/biotools/(图3)。只需要输入PDB ID,程序就会自动下载相应的DSSP文件,并从中抽取出一级和二级结构的序列信息,最后以FASTA格式输出。
图3. BioTools二级结构自动获取工具


发布评论