我如何消除Fasta文件中的重复序列

问题描述 投票:0回答:1

我希望你一切都好,我有问题请]

im试图使用已发布的所有序列来构建数据库细菌种类,以使用bowtie2进行映射来计算我对该数据库的读物覆盖率,为此,我将从ncbi下载的所有基因组序列合并到一个fasta_library中(我合并了74个文件在fasta文件上),问题是在这个fasta文件(我创建的库)中,我有很多重复的序列,并且在很大程度上影响了覆盖率,所以我在问是否有任何办法消除重复。我在自己的Library_File中,或者是否有任何方法可以在没有重复的情况下合并序列,或者是否还有其他方法可以根据参考序列来计算我的读物的覆盖范围

我希望我足够清楚,请告诉我是否有任何不够清楚的地方

我希望您一切都好,请问我在尝试使用公开的所有序列建立数据库细菌种类,以使用...

bioinformatics biopython biological-neural-network
1个回答
0
投票

安装seqkit,然后在FASTA文件上运行以下命令:

© www.soinside.com 2019 - 2024. All rights reserved.