使用python查找fasta文件中包含“ ELVIS”的基因数量;还输出所有具有ELVIS基序的基因的HSA ID号

问题描述 投票:0回答:1

我需要在一个包含100多个蛋白质序列的fasta文件中搜索主题“ ELVIS”。我需要计算有多少蛋白质具有“ ELVIS”并输出与描述行中找到的蛋白质相对应的特定HSA ID号。

蛋白质序列之一的示例:

hsa:7581 ZNF33A,KOX2,KOX31,KOX5,NF11A,ZNF11,ZNF11A,ZNF33,ZZAPK;锌指蛋白33AMANATRRGSGVEQKSQESVSFKDVTVGFTQEEWQHLDPSQRALYRDVMLENYSNLVSVGYCVHKPEVIFRLQQGEEPWKQEEEFPSQSFPVWTADHLKERSQENQSKHLWEVVFINNEMLTKEQGDVIGIPFNVDVSSFPSRKMFCQCDSCGMSFNTVS ELVIS KINYLG

def read_FASTA(filename):
    with open(filename) as file:
        return[(part[0].split(' '), part[2].replace('\n',''))
               for part in
               [entry.partition('\n')
                for entry in file.read().split('>')[1:]]]

我正在尝试对文件进行分区,然后将描述/顺序分配给不同的部分。然后,我试图从文件的序列部分中找到特定的主题。

python-3.x bioinformatics fasta
1个回答
0
投票

如果您对awk解决方案感兴趣。

© www.soinside.com 2019 - 2024. All rights reserved.