从FASTA文件中,仅提取具有指定分类的条目

问题描述 投票:0回答:1

我想提取来自人类分类法的fasta文件的所有条目,并将这些条目转换为新的较小的fasta文件。我正在尝试使用R,但我不知道该怎么做。

fasta文件中的两个条目如下:

>sp|Q4R572|1433B_MACFA 14-3-3 protein beta/alpha OS=Homo sapiens GN=YWHAB PE=2 SV=3
MTMDKSELVQKAKLAEQAERYDDMAAAMKAVTEQGHELSNEERNLLSVAYKNVVGARRSS
WRVISSIEQKTERNEKKQQMGKEYREKIEAELQDICNDVLELLDKYLIPNATQPESKVFY
LKMKGDYFRYLSEVASGDNKQTTVSNSQQAYQEAFEISKKEMQPTHPIRLGLALNFSVFY
YEILNSPEKACSLAKTAFDEAIAELDTLNEESYKDSTLIMQLLRDNLTLWTSENQGDEGD
AGEGEN

>sp|Q9CQV8|1433B_MOUSE 14-3-3 protein beta/alpha OS=Mus musculus GN=Ywhab PE=1 SV=3
MTMDKSELVQKAKLAEQAERYDDMAAAMKAVTEQGHELSNEERNLLSVAYKNVVGARRSS
WRVISSIEQKTERNEKKQQMGKEYREKIEAELQDICNDVLELLDKYLILNATQAESKVFY
LKMKGDYFRYLSEVASGENKQTTVSNSQQAYQEAFEISKKEMQPTHPIRLGLALNFSVFY
YEILNSPEKACSLAKTAFDEAIAELDTLNEESYKDSTLIMQLLRDNLTLWTSENQGDEGD
AGEGEN
r subset extract taxonomy fasta
1个回答
2
投票

如果你想在R中做到有来自readAAstringset包的函数readFASTABioStrings,还有来自read.fastaseqinr,这将允许你将文件读取到R.然后你可以按你喜欢和输出的方式修剪它(两个包都有输出功能也是如此)。

您可以找到有关这些功能的信息和包herehere

由于fasta最终是一个文本文件,您也可以使用here描述的基本R函数来执行此操作,但不建议这样做。

© www.soinside.com 2019 - 2024. All rights reserved.