湖南大学生物信息学实验报告-W8编程频道|福州电脑网

2024年2月6日发(作者：)

实验1 DNA Blast（利用DNA数据库上提供的Blast功能）

1 基本信息：

姓名：程瑶

学号：2

实验日期：2016-04-19 班级：医学1301

2 实验目的和要求：

1）掌握BLAST的原理；

2）了解如何利用Genbank数据库中提供的Blast功能完成同源性检索

3 实验仪器、设备与材料：

计算机（联网）

4 实验原理：

BLAST是一个NCBI开发的序列相似搜索程序，还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。BLAST（Basic

local alignment search tool）,中文意思为基本的基于局部对准的搜索工具，是一种快速查找与靶序列具有连续相同片段的序列的技术。

5 实验步骤：

1）进入NCBI主页（/），点击BLAST按钮，进入了BLAST HOME界面。

A、选择blastn，在Enter Query Sequence 输入FASTA格式的序列，以枯草芽孢杆菌的葡萄糖-1-脱氢酶为例。在choose search set栏中的Database中选择“others”，注意此处的program selection选择Highly similar sequences

(megablast)，再点击“BLAST”按钮，需要一定的反应时间，结果可以看到有很多非常相似的序列，打开匹配度较高的序列，查看来源、功能等。改变下面几个参数（每次只能变化一个参数），看输出结果中打分最高的10条序列是否会发生变；

B：进入blastp,在Enter Query Sequence 输入FASTA格式的序列。在choose search

set栏中的Database中选择“others”，注意此处的program selection选择Highly

similar sequences (megablast)，再点击“BLAST”按钮，需要一定的反应时间，结果可以看到有很多非常相似的序列，打开匹配度较高的序列，查看来源、功能等。改变下面几个参数（每次只能变化一个），看输出结果中打分最高的10条序列是否会发生变化；

6 实验结果及分析：

1）葡萄糖脱氢酶基因BLAST的结果有多少个相似序列，其中匹配程度最高为100%的登录号为多少？此段序列中对应葡萄糖脱氢酶基因的片段从多少bp到多少bp？

答：结果总共有 137 序列。

编号登录号 Begin End

1 CP015004.1 445208 445993

2 CP014166.1 445340 446060

3 CP011115.1 445341 446126

4 CP010314.1 445342 445127

5 CP010052.1 445353 446138

6 CP010053.1 445351 446136

7 LN680001.1 445329 446114

8 LN649259.1 445329 446114

9 CPOO8698.1 445339 446124

10 CP007800.1 445339 446124

2）改变blast过程中的参数对于输出结果是否显著的影响？分别以上面的balstn和blastp为例子说明。

答：

Blastn：所有参数未更改前的前十条序列：

↑原始数据

（1）更改数据库：

A:将数据库改为“EST”和“HTGS”后，并发现没有相似序列被搜索到。这可能是因为序列数据类型不同的原因：

↑EST

↑HTGS

B：将数据库改为“NCBI Genomes (chromosome)”后，前十条有三条数据被更替，3

剩下7条数据相同，且顺序也有变化：

↑NCBI Genomes (chromosome)

（2）更改“Program selection”中的选择为‘discontiguousmegablast’后，发现前十条序列并无任何变化。这可能是因为改变相似度的限制条件后，总的序列数据可能会增多，但是最相似的序列还是那几条，因为它们的序列片段是完全相同的，所以前十个序列没有变化：

↑discontiguousmegablast

（3）更改“algorithm parameter”：

A:分别更改“Size”为24和48（ps：原值为28），发现前十条序列并没有丝毫改变。这可能是因为这十条序列中的对应片段是与样品序列完全相同的，Score都已到达最高分，修改Size的长短对其Score都没有影响。但对不是完全相同的序列可能会有影响：

↑Size=24

↑Size=48

B：我尝试着更改“Match/MismatchScore”为“1，-1”和“1，-3”（ps：原值为1,-2），前10条序列也没有任何变化。这应该是因为这些序列片段与样本片段完全相同的缘故，所以全部都是match，没有mismatch的存在，所以不管mismatch的分值如何变化，都不影响这10条的数据。但是对后面的匹配度较低的序列分值可能会有较大影响：

↑Match/MismatchScore= 1，-1

↑Match/MismatchScore= 1，-3

Blastp：所有参数未更改前的前十条序列：

↑原始数据

（1）更改数据库：

将数据库改为“Protein Data Bank proteins”和“UniProtKB/Swiss-Prot”后，发现序列数据差距很大，没有相同的，不仅仅是前十条。这可能是因为序列数据类型不同的原因：

↑Protein Data Bank proteins(pdb)

↑UniProtKB/Swiss-Prot (swissprot)

（2）在Program selection部分的选择为‘PSI-blast’后，前十条序列数据变化很大，全都不一样了。这可能是因为选择的程序算法改变了，从“蛋白质对蛋白质”变成“特异性位点迭代”，这样所得到的Score就有可能完全不同，因此序列数据完全不同：

↑Position-Specific Iterated BLAST (PSI)

（3）更改“algorithm parameter”：

A：分别更改“Size”为2和6（ps：原值为3），发现前十条序列并没有丝毫改变。这和Blastn应该是一样的，是因为这十条序列中的对应片段是与样品序列完全相同的，Score都已到达最高分，修改Size的长短对其Score都没有影响。同样对对不是完全相同的序列可能会有影响：

↑Size= 2

↑Size= 6

B：我更改得分参数中的矩阵为“BLOSUM80”和“PAM70”（ps：原矩阵为BLOSUM62），结果显示，矩阵变为“BLOSUM80”的前十条序列完全不同，而矩阵变为“PAM70”的前十条序列也仅有四条相同。由此可见矩阵改变后对Score的影响较大：

↑BLOSUM80

↑PAM70

思考题，心得与体会：

（1）请通过Genbank中提供的Blast功能推测下列蛋白序列可能的功能：

答：

1：先用Blast得到大量相似性不同的序列数据：

2：选择其中一个或几个相似性最高的序列（我选择第一条）：

3：查看该序列在NCBI-Protein中的具体信息：

4：找到关于功能的相关描述：

5：所以，该序列可能是与乳腺癌有关的序列，可能的功能是：

该蛋白一个核磷酸蛋白，它起维持基因组的稳定性作用，还可以作为肿瘤的抑制分子。被蛋白质还可以结合其他肿瘤抑制分子、DNA损伤传感器和信号转导分子去形成一个多联10

亚蛋白复合体，该复合体被称为BRCA1相关基因组监控复合体(BASC)。这个蛋白也可以与RNA聚合酶II关联，然后通过C末端结构域，同样与组蛋白去乙酰复合体相结合。因此、这个蛋白也在转录、DNA双链损伤修复、和重组上起作用。编码该蛋白的基因上的突变会引起大约40%的遗传性乳腺癌和超过80%的遗传性乳腺癌和卵巢癌。选择性剪接对该基因调节亚细胞定位和生理作用也起作用。它有许多由选择性剪接得到的转录变体，其中的一些是疾病相关的基因突变，但只有其中的一些变体的全长性质已经描述。一个相关的假基因已经被确定是定位在17号染色体了。

2) 请通过Genbank中提供的Blast功能推测下列基因序列可能的功能：

答

1：先用Blast得到大量相似性不同的序列数据：

2：

A- 选择其中一个或几个相似性最高的序列，我先选择第一条序列，但是、看不懂：

B- 然后我选择第二条序列，发现和第一条序列很相似，但是、也看不懂：

C- 之后我选择第三条序列，发现该序列是计算机预测序列，与食蟹猴相关：

D- 然后我又选择第四条序列，发现也是为计算机预测序列，与小嘴狐猴相关：

3：于是，我就换了种方式，所以用Blastx去搜索一下，结果只发现两条相关序列，而且相似度很低：

4：

A：先在下方简略的浏览了一下两条序列的基本信息，发现第一条序列为未知蛋白，于是我查看该序列在NCBI-Protein中的具体信息，发现也是计算机预测：

B：然后我查看了第二条序列在NCBI-Protein中的具体信息，发现也是计算机预测，并且与家猫有关，为水通道蛋白-12B：

5：综上所述，该序列可能是一条计算机预测的序列，可能的功能是水通道蛋白-12B。

1）自己随机生成一条20个NT的DNA或者10个aa的蛋白质序列，运行blast会得到怎样的结果？

答：

1：NT

2：aa

虽然都有很多匹配，但是E-value的值都比较高，尤其是aa的，都是100+。这应该是数据太少了，随机性太大了。

4）心得体会：

首先呢，感觉这节课收获其实蛮多的。之前知道BLAST，但是仅仅知道可以查到相似度很高的序列，但是根本不知道怎么查其可能的功能；而且现在也大概了解了不同参数对数据结果的影响有哪些不同。

然后呢，感觉BLAST是个中介所一样，收集很多信息，根据你提供的样本，给你提供相似度从高到低的信息，然后你再去NCBI去找你想要的信息。不得不说，真的很赞！

湖南大学生物信息学实验报告-W8

发布评论取消回复

最近发表

相关推荐

标签列表

湖南大学生物信息学实验报告-W8

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复