根据序列长度对FASTA文件进行排序

问题描述 投票:0回答:1

我正在研究鸟类的基因组序列,并通过 RepeatMasker 运行了该基因组。我想找到每类重复中最长的序列。如何根据序列的长度列出我的重复序列?

>rnd-4_family-127#LTR/ERV1
GTTGCCTTTTTCCCAACCTGGAAATGAAAC[...]
>rnd-4_family-1329#Unknown
TCTATCACTTCGGCCCGCGCCAGGAGTGG [...] 

>
表示一个新的序列,我想要类似的东西

>rnd-4_family-127#LTR/ERV1
112

我想要像这样的每个序列的长度,然后将其保存在某个文件中。这样我就可以根据每个序列的长度对该文件进行排序(例如长度递增的顺序)

java bash fasta
1个回答
0
投票

也许是这样的,假设文件中只有两种交替类型的行:名称(以

>
开头)和序列。每个序列只能是一行并且直接位于名称之后:

awk '/^>/{name=$0;next}{print length($0), name, $0}' file.fasta | sort -n
© www.soinside.com 2019 - 2024. All rights reserved.