2024年2月6日发(作者:)

实验1 DNA Blast(利用DNA数据库上提供的Blast功能)

1 基本信息:

姓名:程瑶

学号:2

实验日期:2016-04-19 班级:医学1301

2 实验目的和要求:

1) 掌握BLAST的原理;

2) 了解如何利用Genbank数据库中提供的Blast功能完成同源性检索

3 实验仪器、设备与材料:

计算机(联网)

4 实验原理:

BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。BLAST(Basic

local alignment search tool),中文意思为基本的基于局部对准的搜索工具,是一种快速查找与靶序列具有连续相同片段的序列的技术。

5 实验步骤:

1)进入NCBI主页(/),点击BLAST按钮,进入了BLAST HOME界面。

A、选择blastn,在Enter Query Sequence 输入FASTA格式的序列,以枯草芽孢杆菌的葡萄糖-1-脱氢酶为例。在choose search set栏中的Database中选择“others”,注意此处的program selection选择Highly similar sequences

(megablast),再点击“BLAST”按钮,需要一定的反应时间,结果可以看到有很多非常相似的序列,打开匹配度较高的序列,查看来源、功能等。改变下面几个参数(每次只能变化一个参数),看输出结果中打分最高的10条序列是否会发生变;

B:进入blastp,在Enter Query Sequence 输入FASTA格式的序列。在choose search

set栏中的Database中选择“others”,注意此处的program selection选择Highly

1

similar sequences (megablast),再点击“BLAST”按钮,需要一定的反应时间,结果可以看到有很多非常相似的序列,打开匹配度较高的序列,查看来源、功能等。改变下面几个参数(每次只能变化一个),看输出结果中打分最高的10条序列是否会发生变化;

6 实验结果及分析:

1) 葡萄糖脱氢酶基因BLAST的结果有多少个相似序列,其中匹配程度最高为100%的登录号为多少?此段序列中对应葡萄糖脱氢酶基因的片段从多少bp到多少bp?

答:结果总共有 137 序列。

编号 登录号 Begin End

1 CP015004.1 445208 445993

2 CP014166.1 445340 446060

3 CP011115.1 445341 446126

4 CP010314.1 445342 445127

5 CP010052.1 445353 446138

6 CP010053.1 445351 446136

7 LN680001.1 445329 446114

8 LN649259.1 445329 446114

9 CPOO8698.1 445339 446124

10 CP007800.1 445339 446124

2

2) 改变blast过程中的参数对于输出结果是否显著的影响?分别以上面的balstn和blastp为例子说明。

答:

Blastn:所有参数未更改前的前十条序列:

↑原始数据

(1) 更改数据库:

A:将数据库改为“EST”和“HTGS”后,并发现没有相似序列被搜索到。这可能是因为序列数据类型不同的原因:

↑EST

↑HTGS

B:将数据库改为“NCBI Genomes (chromosome)”后,前十条有三条数据被更替,3

剩下7条数据相同,且顺序也有变化:

↑NCBI Genomes (chromosome)

(2) 更改“Program selection”中的选择为‘discontiguousmegablast’后,发现前十条序列并无任何变化。这可能是因为改变相似度的限制条件后,总的序列数据可能会增多,但是最相似的序列还是那几条,因为它们的序列片段是完全相同的,所以前十个序列没有变化:

↑discontiguousmegablast

(3) 更改“algorithm parameter”:

A:分别更改“Size”为24和48(ps:原值为28),发现前十条序列并没有丝毫改变。这可能是因为这十条序列中的对应片段是与样品序列完全相同的,Score都已到达最高分,修改Size的长短对其Score都没有影响。但对不是完全相同的序列可能会有影响:

4

↑Size=24

↑Size=48

B:我尝试着更改“Match/MismatchScore”为“1,-1”和“1,-3”(ps:原值为1,-2),前10条序列也没有任何变化。这应该是因为这些序列片段与样本片段完全相同的缘故,所以全部都是match,没有mismatch的存在,所以不管mismatch的分值如何变化,都不影响这10条的数据。但是对后面的匹配度较低的序列分值可能会有较大影响:

↑Match/MismatchScore= 1,-1

5

↑Match/MismatchScore= 1,-3

Blastp:所有参数未更改前的前十条序列:

↑原始数据

(1) 更改数据库:

将数据库改为“Protein Data Bank proteins”和“UniProtKB/Swiss-Prot”后,发现序列数据差距很大,没有相同的,不仅仅是前十条。这可能是因为序列数据类型不同的原因:

↑Protein Data Bank proteins(pdb)

6

↑UniProtKB/Swiss-Prot (swissprot)

(2) 在Program selection部分的选择为‘PSI-blast’后,前十条序列数据变化很大,全都不一样了。这可能是因为选择的程序算法改变了,从“蛋白质对蛋白质”变成“特异性位点迭代”,这样所得到的Score就有可能完全不同,因此序列数据完全不同:

↑Position-Specific Iterated BLAST (PSI)

(3) 更改“algorithm parameter”:

A:分别更改“Size”为2和6(ps:原值为3),发现前十条序列并没有丝毫改变。这和Blastn应该是一样的,是因为这十条序列中的对应片段是与样品序列完全相同的,Score都已到达最高分,修改Size的长短对其Score都没有影响。同样对对不是完全相同的序列可能会有影响:

7

↑Size= 2

↑Size= 6

B:我更改得分参数中的矩阵为“BLOSUM80”和“PAM70”(ps:原矩阵为BLOSUM62),结果显示,矩阵变为“BLOSUM80”的前十条序列完全不同,而矩阵变为“PAM70”的前十条序列也仅有四条相同。由此可见矩阵改变后对Score的影响较大:

↑BLOSUM80

8

↑PAM70

7

思考题,心得与体会:

(1)请通过Genbank中提供的Blast功能推测下列蛋白序列可能的功能:

答:

1:先用Blast得到大量相似性不同的序列数据:

2:选择其中一个或几个相似性最高的序列(我选择第一条):

3:查看该序列在NCBI-Protein中的具体信息:

9

4:找到关于功能的相关描述:

5:所以,该序列可能是与乳腺癌有关的序列,可能的功能是:

该蛋白一个核磷酸蛋白,它起维持基因组的稳定性作用,还可以作为肿瘤的抑制分子。被蛋白质还可以结合其他肿瘤抑制分子、DNA损伤传感器和信号转导分子去形成一个多联10

亚蛋白复合体,该复合体被称为BRCA1相关基因组监控复合体(BASC)。这个蛋白也可以与RNA聚合酶II关联,然后通过C末端结构域,同样与组蛋白去乙酰复合体相结合。因此、这个蛋白也在转录、DNA双链损伤修复、和重组上起作用。编码该蛋白的基因上的突变会引起大约40%的遗传性乳腺癌和超过80%的遗传性乳腺癌和卵巢癌。选择性剪接对该基因调节亚细胞定位和生理作用也起作用。它有许多由选择性剪接得到的转录变体,其中的一些是疾病相关的基因突变,但只有其中的一些变体的全长性质已经描述。一个相关的假基因已经被确定是定位在17号染色体了。

2) 请通过Genbank中提供的Blast功能推测下列基因序列可能的功能:

1:先用Blast得到大量相似性不同的序列数据:

2:

A- 选择其中一个或几个相似性最高的序列,我先选择第一条序列,但是、看不懂:

B- 然后我选择第二条序列,发现和第一条序列很相似,但是、也看不懂:

11

C- 之后我选择第三条序列,发现该序列是计算机预测序列,与食蟹猴相关:

D- 然后我又选择第四条序列,发现也是为计算机预测序列,与小嘴狐猴相关:

12

3:于是,我就换了种方式,所以用Blastx去搜索一下,结果只发现两条相关序列,而且相似度很低:

4:

A:先在下方简略的浏览了一下两条序列的基本信息,发现第一条序列为未知蛋白,于是我查看该序列在NCBI-Protein中的具体信息,发现也是计算机预测:

B:然后我查看了第二条序列在NCBI-Protein中的具体信息,发现也是计算机预测,并且与家猫有关,为水通道蛋白-12B:

13

5:综上所述,该序列可能是一条计算机预测的序列,可能的功能是水通道蛋白-12B。

1)自己随机生成一条20个NT的DNA或者10个aa的蛋白质序列,运行blast会得到怎样的结果?

答:

1:NT

2:aa

14

虽然都有很多匹配,但是E-value的值都比较高,尤其是aa的,都是100+。这应该是数据太少了,随机性太大了。

4)心得体会:

首先呢,感觉这节课收获其实蛮多的。之前知道BLAST,但是仅仅知道可以查到相似度很高的序列,但是根本不知道怎么查其可能的功能;而且现在也大概了解了不同参数对数据结果的影响有哪些不同。

然后呢,感觉BLAST是个中介所一样,收集很多信息,根据你提供的样本,给你提供相似度从高到低的信息,然后你再去NCBI去找你想要的信息。不得不说,真的很赞!

15