orthAgogue 错误地处理 BLAST 文件

问题描述 投票:0回答:2

需要招募潜伏在这里阴影中的任何崭露头角的生物信息学家的帮助。

我目前正在格式化一些

.fasta
文件以在一组分组程序中使用,但我一生都无法让它们工作。首先,所有文件都必须有 3 或 4 个字符的名称,如下所示:

PP41.fasta
PP59.fasta
PPBD.fasta
...etc...

这些文件必须具有每个基因序列的标题,如下所示:

>xxxx|yyyyyyyyyy
,其中 xxxx 是与我上面放置的文件名相同的 3 或 4 个字母“分类单元”标识符,yyyyyyy 是其中每个蛋白质的数字标识符每个分类单元(管道符号也可以用 _ 替换,如下所示)。然后我将
cat
所有这些放入一个文件中,该文件的标题看起来正确,如下所示:

>PP49_00001
MIENFNENNDMSDMFWEVEKGTGEVINLVPNTSNTVQPVVLMRLGLFVPTLKSTKRGHQG
EMSSMDATAELRQLAIVKTEGYENIHITGARLDMDNDFKTWVGIIHSFAKHKVIGDAVTL
SFVDFIKLCGIPSSRSSKRLRERLGASLRRIATNTLSFSSQNKSYHTHLVQSAYYDMVKD
TVTIQADPKIFELYQFDRKVLLQLRAINELGRKESAQALYTYIESLPPSPAPISLARLRA
RLNLRSRVTTQNAIVRKAMEQLKGIGYLDYTEIKRGSSVYFIVHARRPKLKALKSSKSSF
KRKKETQEESILTELTREELELLEIIRAEKIIKVTRNHRRKKQTLLTFAEDESQ*
>PP49_00002
MQNDIILPINKLHGLKLLNSLELSDIELGELLSLEGDIKQVSTGNNGIVVHRIDMSEIGS
FLIIDSGESRFVIKAS*

下一步是构建一个blast数据库,我使用NCBI Blast的

formatdb
工具进行如下操作:

formatdb -i allproteins.fasta -p T -o T

这会为数据库生成一组文件。接下来,我对连接的蛋白质对我用它们制作的数据库进行了所有对所有的BLAST,它输出了一个表格文件,我怀疑这就是我的问题开始出现的地方:

blastall -p blastp -d allproteins.fasta -i allproteins.fasta -a 6 -F '0 S' -v 100000 -b 100000 -e 1e-5 -m 8 -o plasmid_allvall_blastout

这些文件有 12 列,如下所示。它似乎对我来说是正确的,但我的主管怀疑错误出现在blast文件中 - 但我不知道我做错了什么。

PP49_00001  PP51_00025  100.00  354 0   0   1   354 1   354 0.0  552
PP49_00001  PP49_00001  100.00  354 0   0   1   354 1   354 0.0  552
PP49_00001  PPTI_00026  90.28   288 28  0   1   288 1   288 3e-172   476
PP49_00001  PPNP_00026  90.28   288 28  0   1   288 1   288 3e-172   476
PP49_00001  PPKC_00016  89.93   288 29  0   1   288 1   288 2e-170   472
PP49_00001  PPBD_00021  89.93   288 29  0   1   288 1   288 2e-170   472
PP49_00001  PPJN_00003  91.14   79  7   0   145 223 2   80  8e-47    147
PP49_00002  PPTI_00024  100.00  76  0   0   1   76  1   76  3e-50    146
PP49_00002  PPNP_00024  100.00  76  0   0   1   76  1   76  3e-50    146
PP49_00002  PPKC_00018  100.00  76  0   0   1   76  1   76  3e-50    146

SO,这才是问题真正开始的地方。我现在将上面的文件传递给一个名为 orthAgogue 的程序,该程序使用手册中列出的参数分析上面的配对序列(仍然不知道我是否做错了什么) - 我所知道的是生成的几个输出文件都是废话/空话。

命令看起来像这样:

orthAgogue -i plasmid_allvsall_blastout -t 0 -p 1 -e 5 -O .

欢迎任何想法! (希望我已经涵盖了所有内容 - 对于这么长的帖子感到抱歉!)

编辑从未设法找到解决方案。不得不使用替代软件。如果管理员希望关闭此功能,请关闭此功能,除非值得为其他人打开(尽管我怀疑这是一个相当小众的问题)。

terminal bioinformatics
2个回答
2
投票

今天首先发现这个问题(orthAgogue):

  • 虽然我的回复可能比较旧,但希望对以后的用户有所帮助;
  • 问题是由于缺少参数造成的:似乎您忘记指定分隔符:-s'_',即以下一组命令行参数应该可以解决问题*:

    orthAgogue -i Plasma_allvsall_blastout -t 0 -p 1 -e 5 -O -s '_'

(* 假设您的输入文件是表格分隔的列文件。)

Joe 发表评论后的简短更新:

简而言之,初始错误报告(Joe)中描述的问题(在大多数情况下)不是错误。相反,它是 orthAgogue 实现的 Inparanoid 算法的核心属性之一:如果您的直向同源结果文件为空(尽管已构建),则这(在大多数情况下)意味着来自以下位置的蛋白质对之间不存在相互最佳匹配:两个不同的分类单元/物种。

对此的一个(众多)解释可能是您的blastp 分数太相似,在这种情况下,我建议采用基于树/同源聚类的组合,如 TREEFAM 中。

因此,当我收到您的数据时,我会将其发送给与我一起工作的一位生物学家,目的是确定适合您数据的工具:希望我的最后一条评论让您高兴;)

Ole Kristian Ekseth,orthAgogue 的开发者


0
投票

我也遇到同样的问题。在orthAgogue结果中,重要文件all.abc为空。请问这个问题是什么原因造成的呢?怎么解决?

© www.soinside.com 2019 - 2024. All rights reserved.