2024年6月3日发(作者:)
Bowtie2使用方法与参数详细介绍 - Public
Library of Bioinformatics
懒人必看
Bowtie2 -q --phred33 --sensitive --end-to-end -I 0 -X 500 --fr --un unpaired --al aligned
--un-conc unconc --al-conc alconc -p 6 --reorder -x{-1-2| -U} -S []
用法:
bowtie2 [options]* -x
必须参数:
-x
量 BOWTIE2_INDEXES 中制定的文件夹中搜寻。 -1
件,并用逗号分开;多个文件必须和 -2
2 flyA_,flyB _". 测序文件中的reads的长度可以不一样。 -2
-U
不一样。 -S
以下是可选参数:
输入参数
-q 输入的文件为FASTQ格式文件,此项为默认值。 -qseq 输入的文件为QSEQ格式文件。 -f
输入的文件为FASTA格式文件。选择此项时,表示--ignore-quals也被选择了。 -r 输入的文件中,每
一行代表一条序列,没有序列名和测序质量等。选择此项时,表示-- ignore-quals也被选择了。 -c 后
直接为比对的reads序列,而不是包含序列的文件名。序列间用逗号隔开。选择此项时,表示—
ignore-quals也被选择了。 -s/--skip
u/--qupto
Default: no limit. -5/--trim5
trim3
ASCII码值加上33. 在最近的illumina pipiline中得以运用。 --phred64 输入的碱基质量等于ASCII
码值加上64. --solexa-quals 将Solexa的碱基质量转换为Phred。在老的GA Pipeline版本中得以运
用。Default: off. --int-quals 输入文件中的碱基质量为用“ ”分隔的数值,而不是ASCII码。比如 40
40 。Default: off.
–end-to-end模式下的预设参数
--very-fast Same as: -D 5 -R 1 -N 0 -L 22 -i S,0,2.50 --fast Same as: -D 10 -R 2 -N 0 -L 22 -i
S,0,2.50 --sensitive Same as: -D 15 -R 2 -N 0 -L 22 -i S,1,1.15 (default in --end-to-end mode) --
very-sensitive Same as: -D 20 -R 3 -N 0 -L 20 -i S,1,0.50
–loca模式下的预设参数
–loca模式下的预设参数 --very-fast-local Same as: -D 5 -R 1 -N 0 -L 25 -i S,1,2.00 --fast-
local Same as: -D 10 -R 2 -N 0 -L 22 -i S,1,1.75 --sensitive-local Same as: -D 15 -R 2 -N 0 -L 20
-i S,1,0.75 (default in --local mode) --very-sensitive-local Same as: -D 20 -R 3 -N 0 -L 20 -i
S,1,0.50
比对参数:
-N
子的长度. ************************************************************ 功能选项给bowtie的一些参
数设定值的时候,使用一个计算公式代替,于是值的大小与比对序列的长度成一定关系。
部分组成: (a)计算方法, 包括常数(C),线性(L),平方根(S)和自然对数(G); (b)一个常数; (c)一个系数. 例如:
1.0 + 5.4 * ln(x) ************************************************************ -i
邻种子间所间距的碱基数。 ************************************************************ 例如:如果
read的长度为30, 种子的长度为10, 相邻种子的间距为6,则提取出的种子如下所示: Read:
TAGCTACGCTCTACGCTATCATGCATAAAC Seed 1 fw: TAGCTACGCT Seed 1 rc: AGCGTAGCTA
Seed 2 fw: CGCTCTACGC Seed 2 rc: GCGTAGAGCG Seed 3 fw: ACGCTATCAT Seed 3 rc:
ATGATAGCGT Seed 4 fw: TCATGCATAA Seed 4 rc: TTATGCATGA
************************************************************ 在--end-to-end模式中默认值为”-i
S,1,1.15”.即表示f(x) = 1 + 1.15 * sqrt(x). 如果read长度为100, 则相邻种子的间距为12. --n-ceil
为: f(x) = 0 + 0.15 * x, 表示长度为100的read 最多运行存在15个不确定碱基. 一旦不确定碱基数超
过15, 则该条read会被过滤掉. --dpad
不允许gap. Default: 4. --ignore-quals 计算错配罚分的时候不考虑碱基质量. 当输入序列的模式为-f, -
r 或者-c的时候, 该设置自动成为默认设置. --nofw/--norc –nofw设定read不和前导链(forward
reference strand)进行比对; --norc设定不和后随链(reverse-complement reference strand)进行比
对. Default: both strands enabled. --end-to-end 比对是将整个read和参考序列进行比对. 该模式--
ma的值为0. 该模式为默认模式, --local模式冲突. --local 该模式下对read进行局部比对, 从而, read
两端的一些碱基不比对,从而使比对得分满足要求. 该模式下 –ma默认为2.
得分罚分参数
--ma
在—end-to-end模式中无效. Default: 2. --mp MX,MN 设定错配罚分. 其中MX为所罚最高分, MN
为所罚最低分. 默认设置下罚分与碱基质量相关. 罚分遵循的公式为: MN + floor( (MX-MN)(MIN(Q,
40.0)/40.0) ). 其中Q为碱基的质量值. 如果设置了—ignore-qual参数, 则错配总是罚最高分. Default:
MX = 6, MN = 2. --np
值. Default: 1. --rdg
Default: 5, 3. --rfg
Default: 5, 3. --score-min
L,-0.6,-0.6; 在--local模式下默认值为: G,20,8.
报告参数
-k
(如果好几个最好的比对结果得分一致, 则随机挑选出其中一个). 而在该模式下, bowtie2最多搜索出一
个read
果数目. 并将所有的比对结果都按降序报告出来. 此参数和-k参数冲突. 值得注意的是: 如果基因组含有
很多重复序列时, 该参数会导致程序运行极其缓慢.
Effort参数
-D
比对失败. 当失败次数连续达到
15. 当具有-k或-a参数, 则该参数所产生的限制会自动调整. -R
考序列上匹配位点过多. 当每个种子平均匹配超过300个位置, 则通过一个不同的偏移来重新生成种子进
行比对.
Paired-end参数
-I/--minins
段长度. Default: 500. --fr/--rf/--ff 设定上下游reads和前导链paired-end比对的方向. --fr: 匹配时,
read1在5'端上游, 和前导链一致, read2在3'下游, 和前导链反向互补. 或者read2在上游, read1在下
游反向互补; --rf: read1在5'端上游, 和前导链反向互补, read2在 3'端下游, 和前导链一致; --fr: 两条
reads都和前导链一致. Default: --fr. 默认设置适合于Illumina的paired-end测序数据; 若是mate-
paired, 则要选择—rf参数. --no-mixed 默认设置下, 一对reads不能成对比对到参考序列上, 则单独对
每个read进行比对. 该选项则阻止此行为. --no-discordant 默认设置下, 一对reads不能和谐比对
(concordant alignment, 即满足-I, -X, --fr/--rf/--ff的条件)到参考序列上, 则搜寻其不和谐比对
(discon cordant alignment, 即两条reads都能独一无二地比对到参考序列上, 但是不满足-I, -X,--fr/--
rf/--ff的条件). 该选项阻止此行为. --dovetail read1和read2的关系为dovetail的时候,该状况算为和
谐比对. 默认情况下dovetail不算和谐比对. --no-contain read1和read2的关系为包含的时候, 该状
况不算为和谐比对. 默认情况下包含关系算为和谐比对. --no-overlap read1和read2的关系为有重叠
的时候, 该状况不算为和谐比对. 默认情况下两个reads重叠算为和谐比对.
输出参数
-t/--time --un
reads写入到
al
al-bz2
--un-conc-gz
能和谐比对一次以上的paired-end reads写入
conc-bz2
何东西. --met-file
metrics disabled. --met-stderr
上一个选项不冲突. Default: metrics disabled. --met
Default: 1.
Sam参数
--no-unal 不记录没比对上的reads. --no-hd 不记录SAM header lines (以@开头). --no-sq 不
记录@SQ的SAM header lines. --rg-id
性能参数
-o/--offrate
值必须大于index的offrate值, 同时
置线程数. Default: 1 --reorder 多线程运算时, 比对结果在顺序上会和文件中reads的顺序不一致, 使用
该选项, 则使其一致. --mm 使用内存定位的I/O来载入index, 而不是常规的文件I/O. 从而使多个
bowtie程序共用内存中同样的index, 节约内存消耗.
其它参数:
--qc-filter 滤除QSEQ fileter filed为非0的reads. 仅当有—qseq选项时有效. Default: off. --
seed
打印用法信息并推出
更多详细信息请阅读:/bowtie2/
本文来自:/chenlianfu_blog/?p=178
如果您还有其他问题,请到生物信息问答社区来问问吧,这里有来自中科
院、国内外高校、公司的生物科研人员以及技术人员,大家一起在线交流。
分享到:
查看文档来源:/2012/09/02/
发布评论