我正在尝试从python中的txt文件中提取代码的xml部分。我正在使用的当前txt文件来自edgar数据库,并且在一个txt文件中具有10k报告的多种表示形式,具有html,xml和pdf等其他表示形式。
[如果有人知道提取此xml的方式以便我可以使用它的标签,我将不胜感激。
以下是我正在谈论的txt文件的示例:https://www.sec.gov/Archives/edgar/data/51143/000005114313000007/0000051143-13-000007.txt
import requests, re
text = requests.get("https://www.sec.gov/Archives/edgar/data/51143/000005114313000007/0000051143-13-000007.txt").text
for xml in re.finditer(r"<FILENAME>([^\s]+.xml)\s<DESCRIPTION>[^\s]+\s<TEXT>\s<XBRL>(.*?)</XBRL>", text, re.IGNORECASE | re.DOTALL | re.MULTILINE):
xml_filename = xml.group(1)
xml_content = xml.group(2)
with open(xml_filename, "w") as w:
w.write(xml_content)