使用 Amazon Athena 查询常见爬网数据集中的 HTML 内容

Question

我目前正在探索 Amazon S3 上托管的大量 Common Crawl 数据集，并尝试使用 Amazon Athena 查询该数据集。我的目标是在网页的 HTML 内容中进行搜索，以识别标记中包含特定字符串的内容。本质上，我希望过滤掉 HTML 内容符合特定条件的网站。

我知道 Athena 能够使用标准 SQL 查询 S3 上的大型数据集。但是，我并不完全确定直接查询 Common Crawl 数据集中网页的 HTML 内容的可行性和方法。

这是我希望实现的简化版本：

sql

SELECT * 
FROM "common_crawl_dataset" 
WHERE html_content LIKE '%specific-string%';

我正在联系询问：

是否可以直接查询网页的HTML内容使用 Athena 的 Common Crawl 数据集？如果是的话，什么是最好的实现这一目标的方法，考虑到效率和成本效益？我是否有任何限制或挑战应该注意什么？

任何见解、技巧或类似实施的示例将不胜感激。预先感谢您的协助！

Answer 1

这并不容易实现，因为 html 注释不在您正在查询的索引的架构中。

此索引最常见的用途是选择爬网的一小部分（例如“所有具有瑞士域名 (*.ch) 的网页，被分类为罗曼什语“roh”语言）。访问这些内容的 html选定的网络捕获是第二步。