从txt文件中提取xml

问题描述 投票:1回答:1

我正在尝试从python中的txt文件中提取代码的xml部分。我正在使用的当前txt文件来自edgar数据库,并且在一个txt文件中具有10k报告的多种表示形式,具有html,xml和pdf等其他表示形式。

[如果有人知道提取此xml的方式以便我可以使用它的标签,我将不胜感激。

以下是我正在谈论的txt文件的示例:https://www.sec.gov/Archives/edgar/data/51143/000005114313000007/0000051143-13-000007.txt

xml beautifulsoup elementtree xbrl edgar
1个回答
0
投票
import requests, re text = requests.get("https://www.sec.gov/Archives/edgar/data/51143/000005114313000007/0000051143-13-000007.txt").text for xml in re.finditer(r"<FILENAME>([^\s]+.xml)\s<DESCRIPTION>[^\s]+\s<TEXT>\s<XBRL>(.*?)</XBRL>", text, re.IGNORECASE | re.DOTALL | re.MULTILINE): xml_filename = xml.group(1) xml_content = xml.group(2) with open(xml_filename, "w") as w: w.write(xml_content)

Demo

© www.soinside.com 2019 - 2024. All rights reserved.