我正在寻找一种方法来检索从UniProt通过指定蛋白UniProt ID在输入的FASTA文件。我的目标是创建一个Google Colab,它能够创建FASTA文件,我可以在其中指定FASTA名称,我想保存它的目录(在Google Drive中),并以1xUniProt1,3xUniProt2格式获取Uniprot ID,其中3x是我希望该序列在FASTA文件中以':'分隔的次数。
我在想这样的事情:
输入中:
Name = protein_sequences
Proteins = 2xUniprot1, 3xUniprot2, 1xUniprot3
Directory = FASTA_directory
输出中:
Name of file = protein_sequences.fasta
FASTA file:
> protein_sequences sequenceUniprot1:sequenceUniprot1:sequenceUniprot2:sequenceUniprot2:sequenceUniprot2:sequenceUniprot3
我遇到的主要问题是,我不确定如何使用Python从UniProt中获取序列本身。我不知道最新最有效的方法是什么。
1条答案
按热度按时间dced5bon1#
看起来UniProt有一个REST API,所以我会尝试从那里获取蛋白质信息:https://www.uniprot.org/help/programmatic_access
您需要对该API进行http调用。为此,我推荐httpx库。如果你从未做过类似的事情,他们的文档应该会指导你完成整个过程。