用BRAKER3对无注释的参考基因组进行基因预测

发表于 2024-01-18 分类于生信分析

使用BRAKER3的流程。

安装

因为这个pipeline需要的dependency太多了，这里先用conda创建一个单独的环境，再直接用singularity（或者docker也可以）把官网指定的所有dependency全部打包成一个sif文件，之后每次都通过singularity作为中间媒介来调用braker3。

1	conda create --name braker3

1	singularity build braker3.sif docker://teambraker/braker3:latest

1	singularity exec braker3.sif braker.pl

此时如果弹出使用简介信息就说明安装成功了。

braker3有四种基因预测（gene prediction）的模式，即GeneMark-ES/ET/EP/ETP，分别对应的是以下四种不同情况：

即只用一条fasta格式的基因组，从头训练GeneMark-ES模型，预测长基因片段，再将这些基因片段提供给AUGUSTUS软件用来注释基因。由于没有真实测序数据的辅助，这样的注释效果是所有模式中最差的。

使用fasta格式的基因组+转录组比对后的bam文件，训练GeneMark-ET

使用fasta格式的基因组+OrthoDB的fasta蛋白组文件，训练GeneMark-EP/EP+

使用fasta格式的基因组+转录组比对后的bam文件+OrthoDB的fasta蛋白组文件，训练GeneMark-ETP

1	singularity exec braker3.sif braker.pl

（待补充）