当我有 WARC 偏移量时,如何有效地解析 WET 文件?

问题描述 投票:0回答:0

Common 爬行提供

warc
文件,其中包含最多的数据和
wec
文件,这些文件的数据量要小得多(并且与我的目的相关)。

我下载了parquet索引,可以用sql查询。假设我正在寻找所有

apple.com
,我可以只查询正确的行,索引会给我需要解析的
warc
文件(节省我,实际上是数 TB 的数据)。

给定

warc
文件,我可以找到相应的
wet
文件,只需进行一些文本替换。然而,即使是这些
wet
/
warc
文件也包含数以万计的 url。索引提供偏移量和记录长度,但它们适用于
warc
文件,而不是
wet
文件。有对应吗?有没有我可以跳转到我感兴趣的网址,而不是必须浏览整个
wet
文件?

web-crawler warc
© www.soinside.com 2019 - 2024. All rights reserved.