orthAgogue 错误地处理 BLAST 文件

Question

需要招募潜伏在这里阴影中的任何崭露头角的生物信息学家的帮助。

我目前正在格式化一些

.fasta

文件以在一组分组程序中使用，但我一生都无法让它们工作。首先，所有文件都必须有 3 或 4 个字符的名称，如下所示：

PP41.fasta
PP59.fasta
PPBD.fasta
...etc...

这些文件必须具有每个基因序列的标题，如下所示：

>xxxx|yyyyyyyyyy

，其中 xxxx 是与我上面放置的文件名相同的 3 或 4 个字母“分类单元”标识符，yyyyyyy 是其中每个蛋白质的数字标识符每个分类单元（管道符号也可以用 _ 替换，如下所示）。然后我将

cat

所有这些放入一个文件中，该文件的标题看起来正确，如下所示：

>PP49_00001
MIENFNENNDMSDMFWEVEKGTGEVINLVPNTSNTVQPVVLMRLGLFVPTLKSTKRGHQG
EMSSMDATAELRQLAIVKTEGYENIHITGARLDMDNDFKTWVGIIHSFAKHKVIGDAVTL
SFVDFIKLCGIPSSRSSKRLRERLGASLRRIATNTLSFSSQNKSYHTHLVQSAYYDMVKD
TVTIQADPKIFELYQFDRKVLLQLRAINELGRKESAQALYTYIESLPPSPAPISLARLRA
RLNLRSRVTTQNAIVRKAMEQLKGIGYLDYTEIKRGSSVYFIVHARRPKLKALKSSKSSF
KRKKETQEESILTELTREELELLEIIRAEKIIKVTRNHRRKKQTLLTFAEDESQ*
>PP49_00002
MQNDIILPINKLHGLKLLNSLELSDIELGELLSLEGDIKQVSTGNNGIVVHRIDMSEIGS
FLIIDSGESRFVIKAS*

下一步是构建一个blast数据库，我使用NCBI Blast的

formatdb

工具进行如下操作：

formatdb -i allproteins.fasta -p T -o T

这会为数据库生成一组文件。接下来，我对连接的蛋白质对我用它们制作的数据库进行了所有对所有的BLAST，它输出了一个表格文件，我怀疑这就是我的问题开始出现的地方：

blastall -p blastp -d allproteins.fasta -i allproteins.fasta -a 6 -F '0 S' -v 100000 -b 100000 -e 1e-5 -m 8 -o plasmid_allvall_blastout

这些文件有 12 列，如下所示。它似乎对我来说是正确的，但我的主管怀疑错误出现在blast文件中 - 但我不知道我做错了什么。

PP49_00001  PP51_00025  100.00  354 0   0   1   354 1   354 0.0  552
PP49_00001  PP49_00001  100.00  354 0   0   1   354 1   354 0.0  552
PP49_00001  PPTI_00026  90.28   288 28  0   1   288 1   288 3e-172   476
PP49_00001  PPNP_00026  90.28   288 28  0   1   288 1   288 3e-172   476
PP49_00001  PPKC_00016  89.93   288 29  0   1   288 1   288 2e-170   472
PP49_00001  PPBD_00021  89.93   288 29  0   1   288 1   288 2e-170   472
PP49_00001  PPJN_00003  91.14   79  7   0   145 223 2   80  8e-47    147
PP49_00002  PPTI_00024  100.00  76  0   0   1   76  1   76  3e-50    146
PP49_00002  PPNP_00024  100.00  76  0   0   1   76  1   76  3e-50    146
PP49_00002  PPKC_00018  100.00  76  0   0   1   76  1   76  3e-50    146

SO，这才是问题真正开始的地方。我现在将上面的文件传递给一个名为 orthAgogue 的程序，该程序使用手册中列出的参数分析上面的配对序列（仍然不知道我是否做错了什么） - 我所知道的是生成的几个输出文件都是废话/空话。

命令看起来像这样：

orthAgogue -i plasmid_allvsall_blastout -t 0 -p 1 -e 5 -O .

欢迎任何想法！（希望我已经涵盖了所有内容 - 对于这么长的帖子感到抱歉！）

编辑从未设法找到解决方案。不得不使用替代软件。如果管理员希望关闭此功能，请关闭此功能，除非值得为其他人打开（尽管我怀疑这是一个相当小众的问题）。

Answer 1

今天首先发现这个问题（orthAgogue）：

虽然我的回复可能比较旧，但希望对以后的用户有所帮助；
问题是由于缺少参数造成的：似乎您忘记指定分隔符：-s'_'，即以下一组命令行参数应该可以解决问题*：

orthAgogue -i Plasma_allvsall_blastout -t 0 -p 1 -e 5 -O -s '_'

（* 假设您的输入文件是表格分隔的列文件。）

Joe 发表评论后的简短更新：

简而言之，初始错误报告（Joe）中描述的问题（在大多数情况下）不是错误。相反，它是 orthAgogue 实现的 Inparanoid 算法的核心属性之一：如果您的直向同源结果文件为空（尽管已构建），则这（在大多数情况下）意味着来自以下位置的蛋白质对之间不存在相互最佳匹配：两个不同的分类单元/物种。

对此的一个（众多）解释可能是您的blastp 分数太相似，在这种情况下，我建议采用基于树/同源聚类的组合，如 TREEFAM 中。

因此，当我收到您的数据时，我会将其发送给与我一起工作的一位生物学家，目的是确定适合您数据的工具：希望我的最后一条评论让您高兴;)

Ole Kristian Ekseth，orthAgogue 的开发者

Answer 2

我也遇到同样的问题。在orthAgogue结果中，重要文件all.abc为空。请问这个问题是什么原因造成的呢？怎么解决？

orthAgogue 错误地处理 BLAST 文件

问题描述投票：0回答：2

2个回答

最新问题

orthAgogue 错误地处理 BLAST 文件

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2