我正在研究鸟类的基因组序列,并通过 RepeatMasker 运行了该基因组。我想找到每类重复中最长的序列。如何根据序列的长度列出我的重复序列?
>rnd-4_family-127#LTR/ERV1
GTTGCCTTTTTCCCAACCTGGAAATGAAAC[...]
>rnd-4_family-1329#Unknown
TCTATCACTTCGGCCCGCGCCAGGAGTGG [...]
>
表示一个新的序列,我想要类似的东西
>rnd-4_family-127#LTR/ERV1
112
我想要像这样的每个序列的长度,然后将其保存在某个文件中。这样我就可以根据每个序列的长度对该文件进行排序(例如长度递增的顺序)
也许是这样的,假设文件中只有两种交替类型的行:名称(以
>
开头)和序列。每个序列只能是一行并且直接位于名称之后:
awk '/^>/{name=$0;next}{print length($0), name, $0}' file.fasta | sort -n