从gzip文件夹中提取文件

Question

我正在尝试从gzip中提取XML文件，该文件来自点击here网站上的“SEC投资顾问报告”按钮（仅供参考，这链接到SEC网站）。下面是我的（最小）代码。我继续得到“嵌入空字符”或“嵌入空字节”，这取决于我是否从我的请求中提供gzip.open() .text或.content。谁能帮助我加载这个文件，所以我可以访问XML？

import requests
import gzip

file = gzip.open(requests.get(r'https://www.adviserinfo.sec.gov/IAPD/Content/BulkFeed/CompilationDownload.aspx?FeedPK=39545&FeedType=IA_FIRM_SEC').text,'rt')

Answer 1

gzip.open采用文件名，而非压缩数据。你可以使用gzip.decompress。

您问题的存档看起来格格不入。具体来说，由于某种原因，它附加了HTML。

以下工作仅使用HTML开头之前的内容：

import requests
import gzip

request = requests.get(r'https://www.adviserinfo.sec.gov/IAPD/Content/BulkFeed/CompilationDownload.aspx?FeedPK=39545&FeedType=IA_FIRM_SEC')

xml = gzip.decompress(request.content[:request.content.find(b"\r\n\r\n<!DOCTYPE html>") - 1])

从gzip文件夹中提取文件

问题描述投票：0回答：1

1个回答

最新问题

从gzip文件夹中提取文件

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1