根据序列长度对FASTA文件进行排序

Question

我正在研究鸟类的基因组序列，并通过 RepeatMasker 运行了该基因组。我想找到每类重复中最长的序列。如何根据序列的长度列出我的重复序列？

>rnd-4_family-127#LTR/ERV1
GTTGCCTTTTTCCCAACCTGGAAATGAAAC[...]
>rnd-4_family-1329#Unknown
TCTATCACTTCGGCCCGCGCCAGGAGTGG [...]

表示一个新的序列，我想要类似的东西

>rnd-4_family-127#LTR/ERV1
112

我想要像这样的每个序列的长度，然后将其保存在某个文件中。这样我就可以根据每个序列的长度对该文件进行排序（例如长度递增的顺序）

Answer 1

也许是这样的，假设文件中只有两种交替类型的行：名称（以

开头）和序列。每个序列只能是一行并且直接位于名称之后：

awk '/^>/{name=$0;next}{print length($0), name, $0}' file.fasta | sort -n