从txt文件中提取xml

问题描述投票：1回答：1

我正在尝试从python中的txt文件中提取代码的xml部分。我正在使用的当前txt文件来自edgar数据库，并且在一个txt文件中具有10k报告的多种表示形式，具有html，xml和pdf等其他表示形式。

[如果有人知道提取此xml的方式以便我可以使用它的标签，我将不胜感激。

以下是我正在谈论的txt文件的示例：https://www.sec.gov/Archives/edgar/data/51143/000005114313000007/0000051143-13-000007.txt

xml

beautifulsoup

elementtree

xbrl

edgar

1个回答

0
投票

import requests, re

text = requests.get("https://www.sec.gov/Archives/edgar/data/51143/000005114313000007/0000051143-13-000007.txt").text
for xml in re.finditer(r"<FILENAME>([^\s]+.xml)\s<DESCRIPTION>[^\s]+\s<TEXT>\s<XBRL>(.*?)</XBRL>", text, re.IGNORECASE | re.DOTALL | re.MULTILINE):
    xml_filename = xml.group(1)
    xml_content = xml.group(2)
    with open(xml_filename, "w") as w:
        w.write(xml_content)

Demo

从txt文件中提取xml

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1