用BRAKER3对无注释的参考基因组进行基因预测

软件官网:
https://github.com/Gaius-Augustus/BRAKER

安装

因为这个pipeline需要的dependency太多了,这里先用conda创建一个单独的环境,再直接用singularity(或者docker也可以)把官网指定的所有dependency全部打包成一个sif文件,之后每次都通过singularity作为中间媒介来调用braker3。

创建conda环境

1
conda create --name braker3

用singularity打包可执行文件

1
singularity build braker3.sif docker://teambraker/braker3:latest

检查是否可用

1
singularity exec braker3.sif braker.pl

此时如果弹出使用简介信息就说明安装成功了。

使用

可用模式

braker3有四种基因预测(gene prediction)的模式,即GeneMark-ES/ET/EP/ETP,分别对应的是以下四种不同情况:

只有参考基因组时

即只用一条fasta格式的基因组,从头训练GeneMark-ES模型,预测长基因片段,再将这些基因片段提供给AUGUSTUS软件用来注释基因。由于没有真实测序数据的辅助,这样的注释效果是所有模式中最差的。

有参考基因组+同一物种的转录组数据时

使用fasta格式的基因组+转录组比对后的bam文件,训练GeneMark-ET

有参考基因组+蛋白组数据(但与目标物种亲缘关系未知)时

使用fasta格式的基因组+OrthoDB的fasta蛋白组文件,训练GeneMark-EP/EP+

有参考基因组+同一物种的转录组数据+蛋白组数据(但与目标物种亲缘关系未知)时

使用fasta格式的基因组+转录组比对后的bam文件+OrthoDB的fasta蛋白组文件,训练GeneMark-ETP

运行

1
singularity exec braker3.sif braker.pl

(待补充)