2023年11月28日发(作者:)
生物信息学实验指导
广东药学院
生命科学与生物制药学院
二○一一年三月
目 录
实验1. 生物信息学数据库与软件搜索……………………………1
实验2. 核酸序列的检索……………………………………………2
实验3. 核酸序列分析………………………………………………3
实验4. 多重序列比对及系统发生树的构建………………………5
实验5.引物设计及评价………………………………………7 PCR
实验6.蛋白质序列分析和结构预测………………………………9
实验一生物信息学数据库和软件的搜索
【实验目的】
熟练掌握上网搜索生物信息学数据库和软件的方法及技能。
【实验内容】
1、搜索生物信息学数据库或者软件
数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领
域。
核酸序列数据库有GenBank, EMBL, DDB等,
蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等,
蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等,
三维结构数据库有PDB, NDB, BioMagResBank, CCSD等,
与蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等,
与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等,
文献数据库有Medline, Uncover等。
另外一些公司还开发了商业数据库,如MDL等。
生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中
心将多个数据库整合在一起提供综合服务,如EBI的SRS(Sequence Retrieval
System)包含了核酸序列库、蛋白质序列库,三维结构库等30多个数据库及
CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多
种查询。
2、搜索生物信息学软件
生物信息学软件的主要功能有:分析和处理实验数据和公共数据,加快研究
进度,缩短科研时间;提示、指导、替代实验操作,利用对实验数据的分析所得
的结论设计下一阶段的实验;寻找、预测新基因及预测其结构、功能;蛋白高级
结构预测。如:核酸序列分析软件BioEdit、DNAClub等;序列相似性搜索BLAST;
多重系列比对软件Clustalx;系统进化树的构建软件Phylip、MEGA等;PCR 引
物设计软件Primer premier6.0、oligo6.0等;蛋白质二级、三级结构预测及三
维分子浏览工具等等。
【作业】
1、搜索生物信息学数据库或者软件。搜索出的数据库包括网址、该数据库
的介绍、数据库网页截屏。如果搜索的是软件则包括该软件的用途、使用方法、
软件图标。(以上搜索的数据库或软件至少完成8个以上)
2、对生物信息学这门课的建议或感想。
注:实验报告要求以电子版的形式完成以上作业,注明专业、学号、姓名后发送
到邮箱。
实验二 核酸序列的检索
【实验目的】
1、掌握核酸序列检索的操作方法;
2、熟悉GenBank数据库序列格式及其主要字段的含义;
3、了解EMBL数据库序列格式及其主要字段的含义;
4、熟悉GenBank数据库序列格式的FASTA序列格式显示与保存;
【实验内容】
1、使用Entrez信息查询系统检索核酸序列BC060830和NM_000230,连接提
取该序列内容,阅读序列格式的解释,理解其含义;
2、GenBank数据库序列格式的FASTA序列格式显示与保存;
3、使用SRS信息查询系统检索核酸序列BC060830,连接提取该序列内容,
阅读序列格式的解释,理解其含义;
【作业】
1、在GenBank数据库中查询核酸序列NM_000230、下载(以两种格式保存:
GenBank与Fasta)、写出GenBank格式主要字段含义。
2、在EMBL数据库中查询核酸序列BC060830、下载(以两种格式保存:
complete entries与Fasta)、写出complete entries格式主要字段含义。
实验三 核酸序列分析
【实验目的】
1、掌握已知或未知序列接受号的核酸序列检索的基本步骤;
2、掌握使用BioEdit软件进行核酸序列的基本分析;
2、熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析);
3、了解基因的电子表达谱分析。
【实验原理】
针对核酸序列的分析就是在核酸序列中寻找基因,找出基因的位置和功能位
点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是
一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基
因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋
白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能
属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏
好性”,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模
板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言,确
定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真
核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除
去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列
还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而
对EST这类残缺的序列则不适用。
1. 重复序列分析
对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的
重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰
乱,尤其是涉及数据库搜索的程序。
2. 数据库搜索
把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列
分析预测的有效手段。在理论课中已经专门介绍了序列比对和搜索的原理和技
术。但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比
例的序列很难在数据库里找到合适的同源伙伴。对于EST序列而言,序列搜索将
是非常有效的预测手段。
3. 编码区统计特性分析
统计获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码
子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可
察觉的统计特异性,即所谓的“密码子偏好性”。利用这一特性对未知序列进行
统计学分析可以发现编码区的粗略位置。这一类技术包括:双密码子计数(统计
连续两个密码子的出现频率);核苷酸周期性分析(分析同一个核苷酸在
3,6,9,...位置上周期性出现的规律);均一/复杂性分析(长同聚物的统计计数);
开放可读框架分析等。
4. 启动子分析
启动子是基因表达所必需的重要序列信号,识别出启动子对于基因辨识十分
重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征,
并依次作为启动子预测的依据,但实际的效果并不十分理想,遗漏和假阳性都比
较严重。总的来说,启动子仍是值得继续研究探索的难题。
5. 内含子 / 外显子剪接位点
剪接位点一般具有较明显的序列特征,但是要注意可变剪接的问题。由于可
变剪接在数据库里的注释非常不完整,因此很难评估剪接位点识别程序预测剪接
位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于
提供剪接位点的识别效果。
6. 翻译起始位点
对于真核生物,如果已知转录起始点,并且没有内含子打断5'非翻译区的话,
“Kozak规则”可以在大多数情况下定位起始密码子。原核生物一般没有剪接过
程,但在开放阅读框中找正确的起始密码子仍很困难。这时由于多顺反操纵子的
存在,启动子定位不象在真核生物中起关键作用。对于原核生物,关键是核糖体
结合点的定位,可以由多个程序提供解决方案。
7. 翻译终止信号
PolyA和翻译终止信号不象起始信号那么重要,但也可以辅助划分基因的范
围。
8. 其它综合基因预测工具
除了上面提到的程序之外,还有许多用于基因预测的工具,它们大多把各个
方面的分析综合起来,对基因进行整体的分析和预测。多种信息的综合分析有助
于提高预测的可靠性,但也有一些局限:物种适用范围的局限;对多基因或部分
基因,有的预测出的基因结构不可靠;预测的精度对许多新发现基因比较低;对
序列中的错误很敏感;对可变剪接、重叠基因和启动子等复杂基因语法效果不佳。
9. tRNA 基因识别
tRNA基因识别比编码蛋白质的基因识别简单,目前基本已经解决了用理论方
法预测tRNA基因的问题。tRNAscan-SE工具中综合了多个识别和分析程序,通
过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析
和除去绝大多数假阳性的筛选过程,据称能识别99%的真tRNA基因。
【实验内容】
1、使用Entrez或SRS信息查询系统检索人瘦素 (leptin) 的mRNA、基因组
DNA、外显子和5’调控区 (promoter) 等核酸序列,连接提取该序列内容,阅
读序列格式的解释,理解其含义;
2、使用BioEdit软件对上述核酸序列进行碱基组成、碱基分布、序列变换
以及限制性酶切分析等基本分析,并从BioEdit软件的“help”栏了解该软件的
其它功能;
3、使用BioEdit软件对人瘦素 (leptin) 的mRNA序列进行可读框架分析;
4、使用NCBI查询系统进行人瘦素 (leptin) 的基因组序列分析和基因的电
子表达谱分析;
5、使用Blast2进行人瘦素 (leptin) mRNA序列与其外显子或基因组序列的
比对分析。
【实验方法】
1、进入NCBI主页:,或者直接在地址栏输入Entrez网址:rez;
2、在输入栏输入homo sapiens leptin;
3、在选择栏中选择nucleotide进行搜索;
4、在显示序列结果中查找人Homo sapiens leptin (LEP), mRNA序列(提示:
NM_000230),点击序列接受号后显示序列详细信息;
5、将序列转为FASTA格式保存。(sequence1)
6、根据从NM_000230了解的基因定位信息查找人瘦素的基因组DNA (Contig)
的序列识别号,点击序列识别号显示序列详细信息;(提示:在NM_000230序列
信息中查找geneID,点击3952进入leptin的基因信息页面)
7、查询人瘦素 (leptin) 基因组的序列分析和5’调控区序列信息;(提示:
在NM_000230序列信息中查找HGNC,点击6553,进入HUGO Gene Nomenclature
Committee (HGNC)页面,点击GENATLAS→LEP可显示leptin基因信息及物理图
谱。进一步点击10 Kb 5' upstream gene genomic sequence study可获得5’
调控区序列)
8、查询人瘦素 (leptin) 基因的电子表达谱分析;(提示:在UniGene中
查询NM_000230)
9、查找人瘦素外显子序列(exon),将序列转为FASTA格式保存。(sequence2)
10、按上述步骤用SRS信息查询系统检索人瘦素 (leptin) 的mRNA、基因组
DNA、外显子和5’调控区等核酸序列;
11、人瘦素 (leptin) mRNA序列与其外显子或基因组序列的比对分析:回到
NCBI主页点击右边栏目BLAST →打开BLAST页面后点击Align→将人瘦素
(leptin) mRNA和外显子的FASTA格式序列分别输入sequence2和sequence1分
析框或将人瘦素 (leptin) mRNA和基因组序列的版本号或GI号输入sequence2
和sequence1的分析框→点击BLAST后显示两序列比对的详细信息→查找mRNA
序列上各外显子的位置。
12、将上述核酸序列输入BioEdit软件进行序列基本分析;
①打开BioEdit软件,点击“help”栏,阅读“contents”;
②将人瘦素 (leptin) 的mRNA序列载入BioEdit软件进行合算序列分析:
打开BioEdit软件→将人瘦素 (leptin) mRNA的FASTA格式序列输入分析框→
点击选中左侧序列说明框中的序列号→点击sequence栏→选择nucleic acid→
点击需要分析的项目【如
Nucleotide Composition(核苷酸组成)
、
Complement(互补)、Translate(翻译)、Find Next ORF(寻找
下一个开放读码框架ORF)、Restriction Map(限制性内切酶图谱)
等】
【作业】
1、归纳对人瘦素 (leptin) 的核酸序列分析的结果,列出主要的分析结果;
2、总结核酸序列分析的基本步骤,相互对比结果,指出应注意的事项。
实验四 多重序列比对及系统发生树的构建
【实验目的】
1、熟悉构建分子系统发生树的基本过程,获得使用不同建树方法、建树材料
和建树参数对建树结果影响的正确认识;
2、掌握使用Clustalx进行序列多重比对的操作方法;
3、掌握使用Phylip软件构建系统发生树的操作方法。
【实验原理】
在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化
史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化
过程的顺序,有助于我们了解生物进化的历史和进化机制。
对于一个完整的进化树分析需要以下几个步骤:
⑴ 要对所分析的多序列目标进行比对(alignment)。
⑵ 要构建一个进化树(phyligenetic tree)。构建进化树的算法主要分为
两类:独立元素法(discrete character methods)和距离依靠法(distance
methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基
酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点
的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它
的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些
碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距
离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法
(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);
距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。
⑶ 对进化树进行评估,主要采用Bootstraping法。进化树的构建是一个统
计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如
果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化
树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适
用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的
序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没
有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱
基);用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其
耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。UPGMAM
(Unweighted pair group method with arithmetic mean)假设在进化过程中
所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。这种算法得
到的进化树相对来说不是很准确,现在已经很少使用。邻位相连法是一个经常被
使用的算法,它构建的进化树相对准确,而且计算快捷。其缺点是序列上的所有
位点都被同等对待,而且,所分析的序列的进化距离不能太大。另外,需要特别
指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。
CLUSTALX和PHYLIP软件能够实现上述的建树步骤。CLUSTALX是Windows
界面下的多重序列比对软件。PHYLIP是多个软件的压缩包,功能极其强大,主
要包括五个方面的功能软件:i,DNA和蛋白质序列数据的分析软件。ii,序列
数据转变成距离数据后,对距离数据分析的软件。 iii,对基因频率和连续的元
素分析的软件。iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0
和1的状态)时,对序列进行分析的软件。v,按照DOLLO简约性算法对序列进
行分析的软件。vi,绘制和修改进化树的软件。
【实验内容】
1、使用CLUSTALX软件对已知八条DNA序列(如下)进行多重序列比对;
M._mulatta AAGCTTTTCT GGCGCAACCA TCCTCATGAT TGCTCACGGA CTCACCTCTT
M._fascicu AAGCTTCTCC GGCGCAACCA CCCTTATAAT CGCCCACGGG CTCACCTCTT
M._sylvanu AAGCTTCTCC GGTGCAACTA TCCTTATAGT TGCCCATGGA CTCACCTCTT
Homo_sapie AAGCTTCACC GGCGCAGTCA TTCTCATAAT CGCCCACGGG CTTACATCCT
Gorilla AAGCTTCACC GGCGCAGTTG TTCTTATAAT TGCCCACGGA CTTACATCAT
Pongo AAGCTTCACC GGCGCAACCA CCCTCATGAT TGCCCATGGA CTCACATCCT
Saimiri_sc AAGCTTCACC GGCGCAATGA TCCTAATAAT CGCTCACGGG TTTACTTCGT
Lemur_catt AAGCTTCATA GGAGCAACCA TTCTAATAAT CGCACATGGC CTTACATCAT
2、使用PHYLIP 软件包构建上述DNA分子系统发生树。
【实验方法】
一、用CLUSTALX软件对已知DNA序列做多序列比对。
操作步骤:
1、以FASTA格式准备8个DNA序列(或txt)文件。
2、双击进入CLUSTALX程序,点FILE进入LOAD SEQUENCE,打开
(或txt)文件。
3、点ALIGNMENT,在默认alignment parameters下,点击Do complete
Alignment 。在新出现的窗口中点击ALIGN进行比对,这时输出两个文件(默认
输出文件格式为Clustal格式):比对文件和向导树文件。
4、点FILE进入Save sequence as,在format 框中选PHYLIP,文件在PHYLIP
软件目录下以存在,点击OK。
5、将PHYLIP软件目录下的文件拷贝到EXE文件夹中。用计事本
方式打开的文件的部分序列如下:
图中的8和50分别表示8个序列和每个序列有50个碱基。
二、用PHYLIP软件推导进化树。
1、进入EXE文件夹,点击SEQBOOT程序输入文件名,回车。
图中的D、J、R、I、O、1、2代表可选择的选项,键入这些字母,程序的条
件就会发生改变。D选项无须改变。J选项有三种条件可以选择,分别是
Bootstrap、Jackknife和Permute。文章上面提到用Bootstraping法对进化树
进行评估,所谓Bootstraping法就是从整个序列的碱基(氨基酸)中任意选取
一半,剩下的一半序列随机补齐组成一个新的序列。这样,一个序列就可以变成
了许多序列。一个多序列组也就可以变成许多个多序列组。根据某种算法(最大
简约性法、最大可能性法、除权配对法或邻位相连法)每个多序列组都可以生成
一个进化树。将生成的许多进化树进行比较,按照多数规则(majority-rule)
我们就会得到一个最“逼真”的进化树。Jackknife则是另外一种随机选取序列
的方法。它与Bootstrap法的区别是不将剩下的一半序列补齐,只生成一个缩短
了一半的新序列。Permute是另外一种取样方法,其目的与Bootstrap和
Jackknife法不同,这里不再介绍。R选项让使用者输入replicate的数目。所
谓replicate就是用Bootstrap法生成的一个多序列组。根据多序列中所含的序
列的数目的不同可以选取不同的replicate,此处选200,输入Y确认参数并在
Random number seed (must be odd) ?的下面输入一个奇数(比如3)。当我们
设置好条件后按回车,程序开始运行,并在EXE文件夹中产生一个文件outfile,
Outfile用记事本打开如下:
这个文件包括了200个replicate。
2、文件outfile改为infile。点击DNADIST程序。选项M是输入刚才设置
的replicate的数目,输入D选择data sets,输入200。
设置好条件后,输入Y确认参数。程序开始运行,并在EXE文件夹中产生
outfile,部分内容如下:
将outfile文件名改为infile,为避免与原先infile文件重复,将 原先文件
名改为infile1。
3、EXE文件夹中选择通过距离矩阵推测进化树的算法,点击NEIGHBOR程序。
输入M更改参数,输入D选择data sets。输入200。输入奇数种子3。
输Y确认参数。程序开始运行,并在EXE文件夹中产生outfile和outtree
两个结果输出。outtree文件是一个树文件,可以用treeview等软件打开。
outfile是一个分析结果的输出报告,包括了树和其他一些分析报告,可以用记
事本直接打开。部分内容如下:
4、将EXE文件夹中原有的outfile改为其他名,新生成的的outfile和
outtree文件名改为infile、intree。点击CONSENSE程序。输入Y确认设置。
EXE文件夹中新生成outfile和outtree。Outfile文件用记事本打开,内容如
下:
5、将EXE文件夹中原有的outfile和outtree改为其他名,新生成的outfile
和outtree改为infile和intree。点击DRAWTREE程序,输入font1文件名,
作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。
6、点击DRAWGRAM程序,输入font1文件名,作为参数。输Y确认参数。程
序开始运行,并出现Tree Preview图。
【作业】
1、采用以上例子给出的DNA序列进行系统发育树的构建结果。(包括序列比对结
果及最终生成的树)
2、以下给出的是蛋白质序列,使用以上方法构建系统发育树。(包括序列比对结
果及最终生成的树)
>RAT
MEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNNPKGMIPLKGSTLTSPC
QDFGKRMFVLK
ITTTKQQDHFFQAAYLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETIDLGAL
YLSMKDPEKGI
>HUMAN
PCQDFGKRMFV
FKLTAAKQQDHFFQASYLEERDAWVRDIKKAIQCIDGGQRFARKSTRKSIRLPETINLS
ALYLSMKDPEK
>Danio rerio
MEPTTIREGYLVKKGTVLNSWKAVWVVLKDDAIEFFKKKTDRNAKGMIPLKGATLTSPC
QDFSKRALVFK
VSTAKNQDHYFQATHLEEREHWVKDIRRAITCLQGGKKFARKSTRRSIRLPESVNLSEL
YVCMKDPDRGV
>chimpanzee
MEPKRIREGYLVKRGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPC
QDFGKRMFVFK
ITTTKQQDHFFQAAFLEERDAWVRDMKKAIKCIEGGQKFARKSTRRSIRLPETIDLGAL
YLSMKDTEKGI
3、以上构建系统进化树的方法为N-J法,请总结采用蛋白质序列构建系统进化
树与采用DNA序列构建系统进化树所选用的程序的区别。
实验五 PCR引物设计及评价
【实验目的】
1、掌握引物设计的基本要求,并熟悉使用Primer premier5.0软件进行引
物搜索。
2、掌握使用软件oligo6.0对设计的引物进行评价分析。
【实验原理】
一、引物设计原则
聚合梅链式反应(polymerase chain reaction)即PCR技术,是一种在体
外快速扩增特定基因或DNA 序列的方法,故又称基因的体外扩增法。PCR技术已
成为分子生物学研究中使用最多,最广泛的手段之一,而引物设计是PCR技术中
至关重要的一环,使用不合适的PCR引物容易导致实验失败:表现为扩增出目的
带之外的多条带(如形成引物二聚体带),不出带或出带很弱,等等。现在PCR
引物设计大都通过计算机软件进行,可以直接提交模板序列到特定网页,得到设
计好的引物,也可以在本地计算机上运行引物设计专业软件。引物设计原则如下:
1、引物应在序列的保守区域设计并具有特异性。引物序列应位于基因组DNA的
高度保守区,且与非扩增区无同源序列。这样可以减少引物与基因组的非特
异结合,提高反应的特异性;
2、引物的长度一般为15-30 bp。常用的是18-27 bp,但不应大于38,因为过
长会导致其延伸温度大于74℃,不适于Taq DNA聚合酶进行反应;
3、引物不应形成二级结构。引物二聚体及发夹结构的能值过高(超过
4.5kcal/mol)易导致产生引物二聚体带,并且降低引物有效浓度而使PCR反
应不能正常进行;
4、引物序列的GC含量一般为40-60%。过高或过低都不利于引发反应。上下游
引物的GC含量不能相差太大;
5、引物所对应模板位置序列的Tm值在72℃左右可使复性条件最佳。Tm值的计
算有多种方法,如按公式Tm=4(G+C)+2(A+T);
6、引物5'端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。可根
据下一步实验中要插入PCR产物的载体的相应序列而确定。
7、引物3’端不可修饰。引物3'端的末位碱基对Taq酶的DNA合成效率有较大
的影响。不同的末位碱基在错配位置导致不同的扩增效率,末位碱基为A的
错配效率明显高于其他3个碱基,因此应当避免在引物的3'端使用碱基A。
8、引物序列自身或者引物之间不能在出现3个以上的连续碱基,如GGG或CCC,
也会使错误引发机率增加;
9、G值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相
对稳定性。应当选用3'端 G值较低(绝对值不超过9),而5’端和中间 G
值相对较高的引物。引物的3’端的 G值过高,容易在错配位点形成双链结
构并引发DNA聚合反应;
值得一提的是,各种模板的引物设计难度不一。有的模板本身条件比较困难,
例如GC含量偏高或偏低,导致找不到各种指标都十分合适的引物;在用作克隆
目的的PCR因为产物序列相对固定,引物设计的选择自由度较低,在这种情况只
能退而求其次,尽量去满足条件。
二、引物设计软件Primer premier5.0及oligo6.0
“Premier”的主要功能分四大块,其中有三种功能比较常用,即引物设计、
限制性内切酶位点分析和DNA 基元(motif)查找。“Premier”还具有同源性分
析功能,但并非其特长,在此略过。此外,该软件还有一些特殊功能,其中最重
要的是设计简并引物,另外还有序列“朗读”、DNA 与蛋白序列的互换、语音提
示键盘输入等等。有时需要根据一段氨基酸序列反推到DNA 来设计引物,由于
大多数氨基酸(20 种常见结构氨基酸中的18 种)的遗传密码不只一种,因此,
由氨基酸序列反推DNA 序列时,会遇到部分碱基的不确定性。这样设计并合成
的引物实际上是多个序列的混和物,它们的序列组成大部分相同,但在某些位点
有所变化,称之为简并引物。遗传密码规则因物种或细胞亚结构的不同而异,比
如在线粒体内的遗传密码与细胞核是不一样的。“Premier”可以针对模板DNA
的来源以相应的遗传密码规则转换DNA 和氨基酸序列。软件共给出八种生物亚
结构的不同遗传密码规则供用户选择,有纤毛虫大核(Ciliate Macronuclear)、
无脊椎动物线粒体(Invertebrate Mitochondrion)、支原体(Mycoplasma)、
植物线粒体(Plant Mitochondrion)、原生动物线粒体(Protozoan
Mitochondrion)、一般标准(Standard)、脊椎动物线粒体(Vertebrate
Mito-chondrion)和酵母线粒体(Yeast Mitochondrion)。
对引物进行分析评价的的软件中,“oligo” 是最着名的。它的使用并不十分
复杂,Oligo 6.0的界面是三个图,Tm图、ΔG图和Frq图。“Oligo”的功能
比“Premier”还要单一,就是引物设计。但它的引物分析功能如此强大以至于
能风靡全世界。所以引物设计的最佳搭配是“Premier”进行引物搜索“Oligo”
对引物分析评价。
【实验内容】
1、使用Primer premier5.0软件进行人瘦素 (leptin) mRNA引物的设计。
2、使用oligo6.0对引物进行评价分析。
?【实验方法】
一、引物搜索
1、打开Primer premier5.0软件,调入人瘦素 (leptin) 基因序列:点击“file”
“open” “ DNA sequence”;或者直接点击 “file” “new”
“DNA sequence”,弹出一对话框如下图,然后将序列人瘦素 (leptin) 基因复
制在空白框。
2、序列文件显示如图,点击“Primer”;
3、进一步点击“search” 按钮,出现“search criteria”窗口,有多种参数
可以调整。搜索目的(Seach For)有三种选项,PCR引物(PCR Primers),测
序引物(Sequencing Primers),杂交探针(Hybridization Probes)。搜索类
型(Search Type)可选择分别或同时查找上、下游引物(Sense/Anti-sense
Primer,或Both),或者成对查找(Pairs),或者分别以适合上、下游引物为
主(Compatible with Sense/Anti-sense Primer)。另外还可改变选择区域
(Search Ranges),引物长度(Primer Length),选择方式(Search Mode),
参数选择(Search Parameters)等等。使用者可根据自己的需要设定各项参数。
我们将Product Size设置300-350,其他参数使用默
认值。
然后点击“OK” ,随之出现的Search Progress窗口中显示Search Completed
时,再点击“OK”。
4、这时搜索结果以表格的形式出现,有三种显示方式,上游引物(Sense),下
游引物(Anti-sense),成对显示(Pairs)。默认显示为成对方式,并按优劣次序
(Rating)排列,满分为100,即各指标基本都能达标(如下图)。
5、按照搜寻结果显示,在主窗口中检查该引物对的二级结构情况,逐条分
析,依次筛选。下面进行序列筛选:点击其中一对引物,如第21#引物,在“Peimer
Premier”主窗口,如图所示:该图分三部分,最上面是图示PCR模板及产物位
置,中间是所选的上下游引物的一些性质,最下面是四种重要指标的分析,包括
发夹结构(Hairpin),二聚体(Dimer),错误引发情况(False Priming),
及上下游引物之间二聚体形成情况(Cross Dimer)。当所分析的引物有这四种
结构的形成可能时,按钮由“None” 变成“Found” ,点击该按钮,在左下角
的窗口中就会出现该结构的形成情况。一对理想的引物应当不存在任何一种上述
结构,因此最好的情况是最下面的分析栏没有“Found”,只有“None” 。值得
注意的是中间一栏的末尾给出该引物的最佳退火温度,可参考应用。
二、引物分析
1、打开oligo的页面如下:
2、单击file菜单再点open或点击“打开”快捷图标或者用快捷键“CTrl
+O”可弹出一对话框,然后选择序列人瘦素 (leptin) 基因。出现以下窗口。
3、点击“window”再点击“Tile”,出现以下窗口,图中显示的三个指标
分别为Tm、ΔG和Frq,因为分析要涉及多个指标,起动窗口的cascade排列方
式不太方便,可从windows菜单改为tile方式。如果觉得太拥挤,可去掉一个
指标。
?G值反映了序列与模板的结合强度,最好引物的?G值在5’端和中间值比较
高,而在3’端相对低(如图:)
Tm值曲线以选取72℃附近为佳,5’到3’的下降形状也有利于引物引发聚
合反应。
Frq曲线为“Oligo 6”新引进的一个指标,揭示了序列片段存在的重复机率
大小。选取引物时,宜选用3’端Frq值相对较低的片段。
4、在设计时,可依据图上三种指标的信息选取序列,如果觉得合适,可点
击Tm图块上左下角的Upper按钮 ,选好上游引物,此时该按钮变成红色,表示
上游引物已选取好。下游引物的选取步骤基本同上,只是按钮变成Lower。
5、当上下游引物全选好以后,需要对引物进行评价。可以用“Analyse”菜
单分析你的引物:比如有无引物二聚体、发卡结构等等。首先检查引物二聚体尤
其是3’端二聚体形成的可能性。需要注意的是,引物二聚体有可能是上游或下
游引物自身形成,也有可能是在上下游引物之间形成(cross dimer)。二聚体
形成的能值越高,越不符合要求。一般的检测(非克隆)性PCR,对引物位置、
产物大小要求较低,因而应尽可能选取不形成二聚体或其能值较低的引物。第二
项检查是发夹结构(hairpin);与二聚体相同,发夹结构的能值越低越好。一
般来说,这两项结构的能值以不超过4.5为好。当然,在设计克隆目的的PCR
引物时,引物两端一般都添加酶切位点,必然存在发夹结构,而且能值不会太低。
这种PCR需要通过灵活调控退火温度以达到最好效果,对引物的发夹结构的检测
就不应要求太高。第三项检查为GC含量,以45-55%为宜。有一些模板本身的
GC含量偏低或偏高,导致引物的GC含量不能被控制在上述范围内,这时应尽量
使上下游引物的GC含量以及Tm值保持接近,以有利于退火温度的选择。
当我们结束以上三项检测,按Alt+P键弹出PCR窗口,其中总结性地显示该
引物的位置、产物大小、Tm值等参数,最有用的是还给出了推荐的最佳退火温
度和简单的评价。
【作业】
1、提交使用Primer premier5.0及oligo6.0软件进行人瘦素 (leptin) mRNA
引物的设计结果;
(1)使用引物设计软件Primer premier5.0进行人瘦素 (leptin) mRNA引
物搜索结果截图。(包括S链和A链截图)
(2)oligo6.0分析此对引物的结果。(包括Duplex formation、Hairpin
formation、False Priming Sites截图)
(3)综合Primer premier5.0与oligo6的引物设计结果为:
sense : 5’- XXXXXXXXXXXXXXXXXXX -3’ (?bp)
antisense: 5’- XXXXXXXXXXXXXXXXXXX -3’ (?bp)
注意:在填antisense时要注意3’到5’翻转成5’到3’
2、总结引物设计应注意的关键事项。
实验六 蛋白质序列分析和结构预测
【实验目的】
1、掌握蛋白质序列检索的操作方法;
2、熟悉蛋白质基本性质分析;
3、熟悉基于序列同源性分析的蛋白质功能预测,了解基于motif、 结构位
点、结构功能域数据库的蛋白质功能预测;
4、了解蛋白质结构预测。
【实验内容】
1、使用Entrez或SRS信息查询系统检索人脂联素 (adiponectin)蛋白质序
列;
2、使用BioEdit软件对上述蛋白质序列进行分子质量、氨基酸组成、和疏
水性等基本性质分析;
3、对人脂联素蛋白质序列进行基于NCBI/Blast软件的蛋白质同源性分析;
4、对人脂联素蛋白质序列进行motif结构分析;
5、对人脂联素蛋白质序列进行二级结构和三维结构预测。
【实验方法】
1、人脂联素蛋白质序列的检索:
(1)调用Internet浏览器并在其地址栏输入Entrez网址();
(2)在Search后的选择栏中选择protein;
(3)在输入栏输入homo sapiens adiponectin;
(4)点击go后显示序列接受号及序列名称;
(5)点击序列接受号NP_004788 (adiponectin precursor; adipose most
abundant gene transcript 1 [Homo sapiens])后显示序列详细信息;
(6)将序列转为FASTA格式保存(参考上述步骤使用SRS信息查询系统检索
人脂联素蛋白质序列);
2、使用BioEdit软件对人脂联素蛋白质序列进行分子质量、氨基酸组成和
疏水性等基本性质分析:
打开BioEdit软件→将人脂联素蛋白质序列的FASTA格式序列输入分析框→
点击左侧序列说明框中的序列说明→点击sequence栏→选择protein→点击
Amino Acid Composition→查看该蛋白质分子质量和氨基酸组成;
或者选择protein后,点击Kyte & Doolittle Mean Hydrophobicity
Profile→查看该蛋白质分子疏水性水平;
3、人脂联素蛋白质序列的蛋白质同源性分析:
(1)进入NCBI/Blast网页;
(2)选择Protein-protein BLAST (blastp) ;
(3)将FASTA格式序列贴入输入栏;
(4)点击BLAST;
(5)查看与之同源的蛋白质;
4、人脂联素蛋白质序列的motif结构分析:
(1)expasy-tools(网页。
(2)将人脂联素蛋白质序列的FASTA格式序列贴入输入栏;
(3)在Prosite Profile前打钩,然后点击Search;
(4)查看分析结果(注意Prosite Profile中的motif information);
5、人脂联素蛋白质序列的二级结构预测:
(1)可由expasy-tools()中的链接进入,或直接输入网址()进入;
(2)进入predictprotein页面后,先register(注册);
(3)然后将人脂联素蛋白质序列的FASTA格式序列贴入输入栏,submission
(提交)所要分析的蛋白序列;
(4)分析结果。
PHD predictions 结果:
PROF predictions结果
6、人脂联素蛋白质序列的三维结构预测:
(1) 进入
http:
(2) 选择Automated mode (自动模式);
(3) 进入Automated mode 界面后输入E-Mail地址和序列名称,将将人
脂联素蛋白质序列的FASTA格式序列贴入输入栏,点击“submit
modeling request”后,等待结果。
(4)下载蛋白PDB文件观看其三维结构图像。(注:需下载软件入rasmol
查看三维图象)。
【作业】
1、提交使用上述软件对人脂联素蛋白质序列进行基本性质分析、同源性分
析、motif结构分析以及二级结构和三维结构预测的结果;
2、总结进行上述分析所需注意的关键事项。
发布评论