需要招募潜伏在这里阴影中的任何崭露头角的生物信息学家的帮助。
我目前正在格式化一些
.fasta
文件以在一组分组程序中使用,但我一生都无法让它们工作。首先,所有文件都必须有 3 或 4 个字符的名称,如下所示:
PP41.fasta
PP59.fasta
PPBD.fasta
...etc...
这些文件必须具有每个基因序列的标题,如下所示:
>xxxx|yyyyyyyyyy
,其中 xxxx 是与我上面放置的文件名相同的 3 或 4 个字母“分类单元”标识符,yyyyyyy 是其中每个蛋白质的数字标识符每个分类单元(管道符号也可以用 _ 替换,如下所示)。然后我将 cat
所有这些放入一个文件中,该文件的标题看起来正确,如下所示:
>PP49_00001
MIENFNENNDMSDMFWEVEKGTGEVINLVPNTSNTVQPVVLMRLGLFVPTLKSTKRGHQG
EMSSMDATAELRQLAIVKTEGYENIHITGARLDMDNDFKTWVGIIHSFAKHKVIGDAVTL
SFVDFIKLCGIPSSRSSKRLRERLGASLRRIATNTLSFSSQNKSYHTHLVQSAYYDMVKD
TVTIQADPKIFELYQFDRKVLLQLRAINELGRKESAQALYTYIESLPPSPAPISLARLRA
RLNLRSRVTTQNAIVRKAMEQLKGIGYLDYTEIKRGSSVYFIVHARRPKLKALKSSKSSF
KRKKETQEESILTELTREELELLEIIRAEKIIKVTRNHRRKKQTLLTFAEDESQ*
>PP49_00002
MQNDIILPINKLHGLKLLNSLELSDIELGELLSLEGDIKQVSTGNNGIVVHRIDMSEIGS
FLIIDSGESRFVIKAS*
下一步是构建一个blast数据库,我使用NCBI Blast的
formatdb
工具进行如下操作:
formatdb -i allproteins.fasta -p T -o T
这会为数据库生成一组文件。接下来,我对连接的蛋白质对我用它们制作的数据库进行了所有对所有的BLAST,它输出了一个表格文件,我怀疑这就是我的问题开始出现的地方:
blastall -p blastp -d allproteins.fasta -i allproteins.fasta -a 6 -F '0 S' -v 100000 -b 100000 -e 1e-5 -m 8 -o plasmid_allvall_blastout
这些文件有 12 列,如下所示。它似乎对我来说是正确的,但我的主管怀疑错误出现在blast文件中 - 但我不知道我做错了什么。
PP49_00001 PP51_00025 100.00 354 0 0 1 354 1 354 0.0 552
PP49_00001 PP49_00001 100.00 354 0 0 1 354 1 354 0.0 552
PP49_00001 PPTI_00026 90.28 288 28 0 1 288 1 288 3e-172 476
PP49_00001 PPNP_00026 90.28 288 28 0 1 288 1 288 3e-172 476
PP49_00001 PPKC_00016 89.93 288 29 0 1 288 1 288 2e-170 472
PP49_00001 PPBD_00021 89.93 288 29 0 1 288 1 288 2e-170 472
PP49_00001 PPJN_00003 91.14 79 7 0 145 223 2 80 8e-47 147
PP49_00002 PPTI_00024 100.00 76 0 0 1 76 1 76 3e-50 146
PP49_00002 PPNP_00024 100.00 76 0 0 1 76 1 76 3e-50 146
PP49_00002 PPKC_00018 100.00 76 0 0 1 76 1 76 3e-50 146
SO,这才是问题真正开始的地方。我现在将上面的文件传递给一个名为 orthAgogue 的程序,该程序使用手册中列出的参数分析上面的配对序列(仍然不知道我是否做错了什么) - 我所知道的是生成的几个输出文件都是废话/空话。
命令看起来像这样:
orthAgogue -i plasmid_allvsall_blastout -t 0 -p 1 -e 5 -O .
欢迎任何想法! (希望我已经涵盖了所有内容 - 对于这么长的帖子感到抱歉!)
编辑从未设法找到解决方案。不得不使用替代软件。如果管理员希望关闭此功能,请关闭此功能,除非值得为其他人打开(尽管我怀疑这是一个相当小众的问题)。
今天首先发现这个问题(orthAgogue):
问题是由于缺少参数造成的:似乎您忘记指定分隔符:-s'_',即以下一组命令行参数应该可以解决问题*:
orthAgogue -i Plasma_allvsall_blastout -t 0 -p 1 -e 5 -O -s '_'
(* 假设您的输入文件是表格分隔的列文件。)
Joe 发表评论后的简短更新:
简而言之,初始错误报告(Joe)中描述的问题(在大多数情况下)不是错误。相反,它是 orthAgogue 实现的 Inparanoid 算法的核心属性之一:如果您的直向同源结果文件为空(尽管已构建),则这(在大多数情况下)意味着来自以下位置的蛋白质对之间不存在相互最佳匹配:两个不同的分类单元/物种。
对此的一个(众多)解释可能是您的blastp 分数太相似,在这种情况下,我建议采用基于树/同源聚类的组合,如 TREEFAM 中。
因此,当我收到您的数据时,我会将其发送给与我一起工作的一位生物学家,目的是确定适合您数据的工具:希望我的最后一条评论让您高兴;)
Ole Kristian Ekseth,orthAgogue 的开发者
我也遇到同样的问题。在orthAgogue结果中,重要文件all.abc为空。请问这个问题是什么原因造成的呢?怎么解决?