我目前正在探索 Amazon S3 上托管的大量 Common Crawl 数据集,并尝试使用 Amazon Athena 查询该数据集。我的目标是在网页的 HTML 内容中进行搜索,以识别标记中包含特定字符串的内容。本质上,我希望过滤掉 HTML 内容符合特定条件的网站。
我知道 Athena 能够使用标准 SQL 查询 S3 上的大型数据集。但是,我并不完全确定直接查询 Common Crawl 数据集中网页的 HTML 内容的可行性和方法。
这是我希望实现的简化版本:
sql
SELECT *
FROM "common_crawl_dataset"
WHERE html_content LIKE '%specific-string%';
我正在联系询问:
是否可以直接查询网页的HTML内容 使用 Athena 的 Common Crawl 数据集?如果是的话,什么是最好的 实现这一目标的方法,考虑到效率和 成本效益?我是否有任何限制或挑战 应该注意什么?
任何见解、技巧或类似实施的示例将不胜感激。预先感谢您的协助!
这并不容易实现,因为 html 注释不在您正在查询的索引的架构中。
请参阅Common Crawl Columnar Index 博客文章了解更多详细信息。
此索引最常见的用途是选择爬网的一小部分(例如“所有具有瑞士域名 (*.ch) 的网页,被分类为罗曼什语“roh”语言)。访问这些内容的 html选定的网络捕获是第二步。