有没有办法使用 Python 从 UniProt 中获取蛋白质序列?

问题描述 投票:0回答:1

我正在寻找一种通过在输入中指定蛋白质 UniProt ID 从 UniProt 检索 FASTA 文件的方法。我的目标是创建一个能够创建 FASTA 文件的 Google Colab,我可以在其中指定 FASTA 名称、我要保存它的目录(在 Google Drive 中)并采用 1xUniProt1、3xUniProt2 格式的 Uniprot ID,其中 3x 是我希望在 FASTA 文件中用“:”分隔的序列的次数。

我在想这样的事情:

输入:

Name = protein_sequences
Proteins = 2xUniprot1, 3xUniprot2, 1xUniprot3
Directory = FASTA_directory

输出:

Name of file = protein_sequences.fasta

FASTA file:

> protein_sequences   sequenceUniprot1:sequenceUniprot1:sequenceUniprot2:sequenceUniprot2:sequenceUniprot2:sequenceUniprot3

我遇到的主要问题是我不确定如何使用 Python 从 UniProt 本身获取序列。我不知道最新最有效的方法是什么。

python google-colaboratory bioinformatics fasta
1个回答
0
投票

看起来 UniProt 有一个 REST api,所以我会尝试从那里获取蛋白质信息:https://www.uniprot.org/help/programmatic_access

您需要对此 API 进行 http 调用。为此,我推荐 httpx 库。如果您从未做过类似的事情,他们的文档应该会指导您完成整个过程。

© www.soinside.com 2019 - 2024. All rights reserved.