用BRAKER3对无注释的参考基因组进行基因预测
软件官网:
https://github.com/Gaius-Augustus/BRAKER
安装
因为这个pipeline需要的dependency太多了,这里先用conda创建一个单独的环境,再直接用singularity(或者docker也可以)把官网指定的所有dependency全部打包成一个sif文件,之后每次都通过singularity作为中间媒介来调用braker3。
创建conda环境
1 | conda create --name braker3 |
用singularity打包可执行文件
1 | singularity build braker3.sif docker://teambraker/braker3:latest |
检查是否可用
1 | singularity exec braker3.sif braker.pl |
此时如果弹出使用简介信息就说明安装成功了。
使用
可用模式
braker3有四种基因预测(gene prediction)的模式,即GeneMark-ES/ET/EP/ETP,分别对应的是以下四种不同情况:
只有参考基因组时
即只用一条fasta格式的基因组,从头训练GeneMark-ES模型,预测长基因片段,再将这些基因片段提供给AUGUSTUS软件用来注释基因。由于没有真实测序数据的辅助,这样的注释效果是所有模式中最差的。
有参考基因组+同一物种的转录组数据时
使用fasta格式的基因组+转录组比对后的bam文件,训练GeneMark-ET
有参考基因组+蛋白组数据(但与目标物种亲缘关系未知)时
使用fasta格式的基因组+OrthoDB的fasta蛋白组文件,训练GeneMark-EP/EP+
有参考基因组+同一物种的转录组数据+蛋白组数据(但与目标物种亲缘关系未知)时
使用fasta格式的基因组+转录组比对后的bam文件+OrthoDB的fasta蛋白组文件,训练GeneMark-ETP
运行
1 | singularity exec braker3.sif braker.pl |
(待补充)