2024年3月9日发(作者:)
NCBI中Blast种类及使用简介
NCBI中Blast种类简介
1. Blast Assembled Genomes
在一个选择的物种基因组序列中去搜索。
2.Basic Blast
2.1 nucleotide blast--- 用核酸序列到核酸数据库中进行搜索,包括3
个程序
2.1.1 Blastn----核酸序列(n)到核酸序列数据库中搜索,是一种标准的
搜索。
2.1.2 megablast----该程序使用“模糊算法”加快了比较速度,可以用于
快速比较两大系列序列。 可以用来搜索一匹ESTs序列和大的cDNA或基因组序
列, 适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较
2.1.3 discontiguous megablast----与megablast不同的是主要用来比较
来自不同物种之间的相似性较低的分歧序列。
2.2 Protein Blast
2.2.1 Blastp ---蛋白质序列到蛋白质序列数据库中搜索,是一种标准的
搜索。
2.2.2 psi-blast---位点特异迭代BLAST — 用蛋白查询来搜索蛋白资料
库的一个程式。所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对
齐,从这个对齐,一个位置特异的分值矩阵建立起来。这个矩阵被用来搜索资料
库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以
被发现。
2.2.3 PHI-BLAST---以常规的表达模型为特别位置进行PSI - BLAST检索,
找出和待查询序列具有一样的表达模型且具有同源性的蛋白质序列。
2.3 Translating BLAST
2.3.1 blastx----先将待查询的核酸序列按6 种读框翻译成蛋白质序列,
然后将翻译出的蛋白质序列与NCBI 蛋白质序列数据库比较。
2.3.2 tblastn-----先将核酸序列数据库中的核酸序列按6 种读框翻译成
蛋白质序列,然后将待查询的蛋白质序列与翻译结果进行比较。
2.3.3 tblastx----先将待查询的
核酸序列和核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,
然后再将两种翻译结果在蛋白质水平上进行比较
3.Specialized Blast Specialized BLAST pages 可以对特殊生物或特殊
研究领域的序列数据库进行检索。
例:CD - Search
CD - Search 是使用RPS - BLAST程序以一个蛋白质序列与保守结构域数据
库(Conserved Domain Database) 做比较。
Pairwise BLAST
Pairwise BLAST是用BLAST程序实现两个序列之间的比较。选择“序列1”
为待比较序列,则“序列2”就是被比较序列。
IgBLAST —IgBLAST被开发出来以便於分析在GenBank中的免疫球蛋白的序
列。它允许用blastp或blastn来搜索nr资料库或一个由免疫球蛋白生殖系变
化区基因的特殊的资料库。搜索可以限制在人类或小鼠的基因。IgBLAST执行三
个主要的功能∶1)报告与查询序列最相似的可变,D,或J区,2)根据Kabat et
al.来注解免疫球蛋白domains(从FWR1到FWR3),3)对於搜索核酸或蛋白nr
资料库,通过匹配IgBLAST的发现和最接近的生殖系变化区基因来简化识别相关
序列的过程。
等等。。。。。。。。。
在线BLAST的使用方法
1、登陆blast主页:/BLAST/
2、根据数据类型,选择合适的程序
3、填写表单信息
序列的输入、比对搜索区域的选择、数据库的选择:
_/ [&限制调节、打分矩阵及其他参数的设置:
图中各参数的含义:(不同的平台有少许差异,请对比参照)9 L4 N3 I) u+
N0 {$ q
Word siez选项:4 c, r* F* g" t' g) B, j9 u
BLAST 程序是通过比对未知序列与数据库序列中的短序列来发现最佳匹配
序列的。最初进行“扫描”(scanning)就是确定匹配片段。序列的匹配程序由短
序列(定义为“word”,即字)的联配得分总和来决定。联配时,“字”的每个碱
基均被计分:如果碱基对完全相同(如 A 与 A),得某一正值;如果碱基对不很
匹配(W与A或 T),则得某一略小的正值;如果两个碱基不匹配,则得一负值。
总的 合计得分便决定了序列间的相似程度。得分高的匹配序列被称为高比值片
段对(high-scoring segment pairs, HSP)。BLAST 程序在两个方向扩展 HSP,
直至序列结束或联配已变为不显著。替 换矩阵在扫描(scanning)和扩展过程被
应用。最后在 BLAST 报告中被列出的序列 都是所有得分最高的序列。
以上述及的初始字长便是由Word siez值设定。BLAST只对字长为W的“字”
进行扩展联配。BLAST 的字长缺省值为 11,即 BLASTN 将扫描数据库,直到发
现那些与未知序列的 11 个连续碱基完全匹配的11个连续碱基长度片段为止。
然后这些片段(即字)被扩展。11个碱基的字长已能有效地排除中等分叉的同源
性和几乎所有随机产生的显著联配。
“Filter”(过滤器)选项:
BLAST 2.0版本的新功能,过滤器将锁定诸如组成低复杂(low
compositional complexity)序列区(如Alu序列),用一系列N(NNNNNN)替代这
些程序。N 代表任意碱基(IUB-code)。只有未知待检序列被过滤替代,而数据库
的序列将不被过滤。过滤对绝大多数序列都是有益的,例如,多A 碱基的尾部
和脯氨酸富积的序列,会得到人为的高联配得分而误导分析。这是因为这类序列
数量极大,遍布整个基因组,直至整个数据库。# p$ r4 W! O1 x5 n8 i! j3 m
“Matrix”(矩阵)选项:
联配的显著性是由返回的比对分值决定的,该分值反映的是所得到的联配
随机产生的概率有多大。矩阵被用于鉴别数据库中的序列,同时又用来预测匹配
的显著性大小。一般应接受运行程序推荐的矩阵。BLAST系列程序主要使用两种
类型矩阵(PAM和BLOSUM,前面都有介绍)。要准确地选择矩阵,必须了解矩阵和
矩阵的具体计分方式。值得注意的是,直接比较使用不同替换矩阵而获得的联配
得分是没有意义的。
“EXPECT”选项:
您可以为搜索设定一个期望值阀值(EXPECT),例如缺省值设为10。这一设
置则表示联配结果中将有10个匹配序列是由随机产生,如果联配的统计显著性
值(E值)小于该值(10),则该联配将被检出。换句话说,比较低的阀值将使搜索
的匹配要求更严格,结果报告中随机产生的匹配序列减少。
“Score Value”(分值)选项:(有些平台上没有此选项)6 [- q+ J# k9 ?6
N( M( d0 a
在“wordsize”选项中曾论及碱基对匹配程度的赋分问题,其赋分的标准
可由分值选项的M和N 两个参数设置。M 参数为匹配碱基的赋值,必需为一正
整数;N 参数为不匹配碱基的赋值,必需为一负整数。M/N 的比率决定了你所接
受的进化分歧程度(degree of divergence),M 和N 的缺省值为5和-4。该比
率(1.25)相当于在100个残基中约有47可以观测到的核酸点突变(PAM)。PAM 是
被用来预测分子序列从祖先序列进化而来的程度。如果你调整M和N使比率提高,
则 PAM 矩阵也应选择大些(指PAM矩阵后的数字),以适应相应的较大的分歧程
度。
NCBI使用方法
2010-07-19 20:22
NCBI使用方法
NCBI (National Center for Biotechnology Information), 美国国家生物技术
信息中心
/
NCBI是NIH的国立医学图书馆(NLM)的一个分支。
NCBI提供检索的服务包括:
1.GenBank(NIH遗传序列数据库):一个可以公开获得所有的DNA序列的注释
过的收集。GenBank是由NCBI受过分子生物学高级训练的工作人员通过来自各
个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起
数据库的。它同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸
序列数据库合作。这三个组织每天交换数据。其中的数据以指数形式增长,最近
的数据为它已经有来自47000个物种的30亿个碱基。
2.Molecular Databases(分子数据库):
Nucleotide Sequence(核酸序列库):从NCBI其他如Genbank数据库中收集整
理核酸序列,提供直接的检索。
Protein Sequence (蛋白质序列库):与核酸类似,也是从NCBI多个不同资源
中编译整理的,方便研究者的直接查询。
Structure(结构)-—— 关于NCBI结构小组的一般信息和他们的研究计划,另
外也可以访问三维蛋白质结构的分子模型数据库(MMDB)和用来搜索和显示结构
的相关工具。MMDB:分子模型数据库 — 一个关于三维生物分子结构的数据库,
结构来自于X-ray晶体衍射和NMR色谱分析。
Taxonomy(分类学)——NCBI的分类数据库,包括大于7万余个物种的名字和
种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列
数据库建立一个一致的种系发生分类学。
3.Literature Databases(文献数据库)
(1)PubMed是NLM提供的一项服务,能够对MEDLINE上超过1200万条的上世
纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问,并可以连接到
参与的出版商网络站点的全文文章和其他相关资源。
(2)PMC/PubMed Center:也是NLM的生命科学期刊文献的数字化存储数据库,
用户可以免费获取PMC的文章全文,除了部分期刊要求对近期的文章付费。
(3)OMIM(孟德尔人类遗传):有关人类基因和无序基因的目录数据库由Victor
ck和他的同事共同创造和编辑的,由NCBI网站负责开发,其中也包括
对MEDINE众多资源和Entrez系统的序列记录,以及NCBI中其他有关资源的链
接。
(4)Books:NCBI的书库不断收集生物医学方面的书籍,提供这些书籍的出版
信息、摘要、目录和全文的连接,用户可以直接在检索文本框内输入一个观念就
可以查询。
4.NCBI提供的附加的软件工具有:
开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具Sequin和BankIt。
所有的NCBI数据库和软件工具可以从WWW或FTP来获得。NCBI还有E-mail服
务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。 NCBI网站上
还提供了一些诸如研究热点问题、研究小组情况、教育培训、联系方式等信息,
还提供了到NIH、NLM等的链接。
使用方法:
用户可以免费登陆NCBI的网站,NCBI为使用者提供了方便的检索系统和检索方
法:
1.Entrez是NCBI为用户提供整合所有数据库的访问序列,定位,分类,和结
构数据的搜索和检索工具系统,同时也提供序列和染色体图谱的图形视图。用户
进入系统或者进入任意一个数据库,都会看到简单检索的界面,选择数据库输入
关键词即可进行查询。Entrez也提供条件限制和高级检索、布尔逻辑查询。使
用新的Linkout服务,外部资源可以被链接到Entrez记录。
2.BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点
的手段。BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。
发布评论