Common 爬行提供
warc
文件,其中包含最多的数据和 wec
文件,这些文件的数据量要小得多(并且与我的目的相关)。
我下载了parquet索引,可以用sql查询。假设我正在寻找所有
apple.com
,我可以只查询正确的行,索引会给我需要解析的 warc
文件(节省我,实际上是数 TB 的数据)。
给定
warc
文件,我可以找到相应的wet
文件,只需进行一些文本替换。然而,即使是这些 wet
/warc
文件也包含数以万计的 url。索引提供偏移量和记录长度,但它们适用于 warc
文件,而不是 wet
文件。有对应吗?有没有我可以跳转到我感兴趣的网址,而不是必须浏览整个 wet
文件?