当我有 WARC 偏移量时，如何有效地解析 WET 文件？

问题描述投票：0回答：0

Common 爬行提供

warc

文件，其中包含最多的数据和

wec

文件，这些文件的数据量要小得多（并且与我的目的相关）。

我下载了parquet索引，可以用sql查询。假设我正在寻找所有

apple.com

，我可以只查询正确的行，索引会给我需要解析的

warc

文件（节省我，实际上是数 TB 的数据）。

给定

warc

文件，我可以找到相应的

wet

文件，只需进行一些文本替换。然而，即使是这些

wet

warc

文件也包含数以万计的 url。索引提供偏移量和记录长度，但它们适用于

warc

文件，而不是

wet

文件。有对应吗？有没有我可以跳转到我感兴趣的网址，而不是必须浏览整个

wet

文件？

web-crawler

warc