2024年2月6日发(作者:)
实验1 DNA Blast(利用DNA数据库上提供的Blast功能)
1 基本信息:
姓名:程瑶
学号:2
实验日期:2016-04-19 班级:医学1301
2 实验目的和要求:
1) 掌握BLAST的原理;
2) 了解如何利用Genbank数据库中提供的Blast功能完成同源性检索
3 实验仪器、设备与材料:
计算机(联网)
4 实验原理:
BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。BLAST(Basic
local alignment search tool),中文意思为基本的基于局部对准的搜索工具,是一种快速查找与靶序列具有连续相同片段的序列的技术。
5 实验步骤:
1)进入NCBI主页(/),点击BLAST按钮,进入了BLAST HOME界面。
A、选择blastn,在Enter Query Sequence 输入FASTA格式的序列,以枯草芽孢杆菌的葡萄糖-1-脱氢酶为例。在choose search set栏中的Database中选择“others”,注意此处的program selection选择Highly similar sequences
(megablast),再点击“BLAST”按钮,需要一定的反应时间,结果可以看到有很多非常相似的序列,打开匹配度较高的序列,查看来源、功能等。改变下面几个参数(每次只能变化一个参数),看输出结果中打分最高的10条序列是否会发生变;
B:进入blastp,在Enter Query Sequence 输入FASTA格式的序列。在choose search
set栏中的Database中选择“others”,注意此处的program selection选择Highly
1
similar sequences (megablast),再点击“BLAST”按钮,需要一定的反应时间,结果可以看到有很多非常相似的序列,打开匹配度较高的序列,查看来源、功能等。改变下面几个参数(每次只能变化一个),看输出结果中打分最高的10条序列是否会发生变化;
6 实验结果及分析:
1) 葡萄糖脱氢酶基因BLAST的结果有多少个相似序列,其中匹配程度最高为100%的登录号为多少?此段序列中对应葡萄糖脱氢酶基因的片段从多少bp到多少bp?
答:结果总共有 137 序列。
编号 登录号 Begin End
1 CP015004.1 445208 445993
2 CP014166.1 445340 446060
3 CP011115.1 445341 446126
4 CP010314.1 445342 445127
5 CP010052.1 445353 446138
6 CP010053.1 445351 446136
7 LN680001.1 445329 446114
8 LN649259.1 445329 446114
9 CPOO8698.1 445339 446124
10 CP007800.1 445339 446124
2
2) 改变blast过程中的参数对于输出结果是否显著的影响?分别以上面的balstn和blastp为例子说明。
答:
Blastn:所有参数未更改前的前十条序列:
↑原始数据
(1) 更改数据库:
A:将数据库改为“EST”和“HTGS”后,并发现没有相似序列被搜索到。这可能是因为序列数据类型不同的原因:
↑EST
↑HTGS
B:将数据库改为“NCBI Genomes (chromosome)”后,前十条有三条数据被更替,3
剩下7条数据相同,且顺序也有变化:
↑NCBI Genomes (chromosome)
(2) 更改“Program selection”中的选择为‘discontiguousmegablast’后,发现前十条序列并无任何变化。这可能是因为改变相似度的限制条件后,总的序列数据可能会增多,但是最相似的序列还是那几条,因为它们的序列片段是完全相同的,所以前十个序列没有变化:
↑discontiguousmegablast
(3) 更改“algorithm parameter”:
A:分别更改“Size”为24和48(ps:原值为28),发现前十条序列并没有丝毫改变。这可能是因为这十条序列中的对应片段是与样品序列完全相同的,Score都已到达最高分,修改Size的长短对其Score都没有影响。但对不是完全相同的序列可能会有影响:
4
↑Size=24
↑Size=48
B:我尝试着更改“Match/MismatchScore”为“1,-1”和“1,-3”(ps:原值为1,-2),前10条序列也没有任何变化。这应该是因为这些序列片段与样本片段完全相同的缘故,所以全部都是match,没有mismatch的存在,所以不管mismatch的分值如何变化,都不影响这10条的数据。但是对后面的匹配度较低的序列分值可能会有较大影响:
↑Match/MismatchScore= 1,-1
5
↑Match/MismatchScore= 1,-3
Blastp:所有参数未更改前的前十条序列:
↑原始数据
(1) 更改数据库:
将数据库改为“Protein Data Bank proteins”和“UniProtKB/Swiss-Prot”后,发现序列数据差距很大,没有相同的,不仅仅是前十条。这可能是因为序列数据类型不同的原因:
↑Protein Data Bank proteins(pdb)
6
↑UniProtKB/Swiss-Prot (swissprot)
(2) 在Program selection部分的选择为‘PSI-blast’后,前十条序列数据变化很大,全都不一样了。这可能是因为选择的程序算法改变了,从“蛋白质对蛋白质”变成“特异性位点迭代”,这样所得到的Score就有可能完全不同,因此序列数据完全不同:
↑Position-Specific Iterated BLAST (PSI)
(3) 更改“algorithm parameter”:
A:分别更改“Size”为2和6(ps:原值为3),发现前十条序列并没有丝毫改变。这和Blastn应该是一样的,是因为这十条序列中的对应片段是与样品序列完全相同的,Score都已到达最高分,修改Size的长短对其Score都没有影响。同样对对不是完全相同的序列可能会有影响:
7
↑Size= 2
↑Size= 6
B:我更改得分参数中的矩阵为“BLOSUM80”和“PAM70”(ps:原矩阵为BLOSUM62),结果显示,矩阵变为“BLOSUM80”的前十条序列完全不同,而矩阵变为“PAM70”的前十条序列也仅有四条相同。由此可见矩阵改变后对Score的影响较大:
↑BLOSUM80
8
↑PAM70
7
思考题,心得与体会:
(1)请通过Genbank中提供的Blast功能推测下列蛋白序列可能的功能:
答:
1:先用Blast得到大量相似性不同的序列数据:
2:选择其中一个或几个相似性最高的序列(我选择第一条):
3:查看该序列在NCBI-Protein中的具体信息:
9
4:找到关于功能的相关描述:
5:所以,该序列可能是与乳腺癌有关的序列,可能的功能是:
该蛋白一个核磷酸蛋白,它起维持基因组的稳定性作用,还可以作为肿瘤的抑制分子。被蛋白质还可以结合其他肿瘤抑制分子、DNA损伤传感器和信号转导分子去形成一个多联10
亚蛋白复合体,该复合体被称为BRCA1相关基因组监控复合体(BASC)。这个蛋白也可以与RNA聚合酶II关联,然后通过C末端结构域,同样与组蛋白去乙酰复合体相结合。因此、这个蛋白也在转录、DNA双链损伤修复、和重组上起作用。编码该蛋白的基因上的突变会引起大约40%的遗传性乳腺癌和超过80%的遗传性乳腺癌和卵巢癌。选择性剪接对该基因调节亚细胞定位和生理作用也起作用。它有许多由选择性剪接得到的转录变体,其中的一些是疾病相关的基因突变,但只有其中的一些变体的全长性质已经描述。一个相关的假基因已经被确定是定位在17号染色体了。
2) 请通过Genbank中提供的Blast功能推测下列基因序列可能的功能:
答
1:先用Blast得到大量相似性不同的序列数据:
2:
A- 选择其中一个或几个相似性最高的序列,我先选择第一条序列,但是、看不懂:
B- 然后我选择第二条序列,发现和第一条序列很相似,但是、也看不懂:
11
C- 之后我选择第三条序列,发现该序列是计算机预测序列,与食蟹猴相关:
D- 然后我又选择第四条序列,发现也是为计算机预测序列,与小嘴狐猴相关:
12
3:于是,我就换了种方式,所以用Blastx去搜索一下,结果只发现两条相关序列,而且相似度很低:
4:
A:先在下方简略的浏览了一下两条序列的基本信息,发现第一条序列为未知蛋白,于是我查看该序列在NCBI-Protein中的具体信息,发现也是计算机预测:
B:然后我查看了第二条序列在NCBI-Protein中的具体信息,发现也是计算机预测,并且与家猫有关,为水通道蛋白-12B:
13
5:综上所述,该序列可能是一条计算机预测的序列,可能的功能是水通道蛋白-12B。
1)自己随机生成一条20个NT的DNA或者10个aa的蛋白质序列,运行blast会得到怎样的结果?
答:
1:NT
2:aa
14
虽然都有很多匹配,但是E-value的值都比较高,尤其是aa的,都是100+。这应该是数据太少了,随机性太大了。
4)心得体会:
首先呢,感觉这节课收获其实蛮多的。之前知道BLAST,但是仅仅知道可以查到相似度很高的序列,但是根本不知道怎么查其可能的功能;而且现在也大概了解了不同参数对数据结果的影响有哪些不同。
然后呢,感觉BLAST是个中介所一样,收集很多信息,根据你提供的样本,给你提供相似度从高到低的信息,然后你再去NCBI去找你想要的信息。不得不说,真的很赞!
15
发布评论