使用 Amazon Athena 查询常见爬网数据集中的 HTML 内容

问题描述 投票:0回答:1

我目前正在探索 Amazon S3 上托管的大量 Common Crawl 数据集,并尝试使用 Amazon Athena 查询该数据集。我的目标是在网页的 HTML 内容中进行搜索,以识别标记中包含特定字符串的内容。本质上,我希望过滤掉 HTML 内容符合特定条件的网站。

我知道 Athena 能够使用标准 SQL 查询 S3 上的大型数据集。但是,我并不完全确定直接查询 Common Crawl 数据集中网页的 HTML 内容的可行性和方法。

这是我希望实现的简化版本:

sql

SELECT * 
FROM "common_crawl_dataset" 
WHERE html_content LIKE '%specific-string%';

我正在联系询问:

是否可以直接查询网页的HTML内容 使用 Athena 的 Common Crawl 数据集?如果是的话,什么是最好的 实现这一目标的方法,考虑到效率和 成本效益?我是否有任何限制或挑战 应该注意什么?

任何见解、技巧或类似实施的示例将不胜感激。预先感谢您的协助!

python amazon-web-services web-crawler amazon-athena common-crawl
1个回答
0
投票

这并不容易实现,因为 html 注释不在您正在查询的索引的架构中。

请参阅Common Crawl Columnar Index 博客文章了解更多详细信息。

此索引最常见的用途是选择爬网的一小部分(例如“所有具有瑞士域名 (*.ch) 的网页,被分类为罗曼什语“roh”语言)。访问这些内容的 html选定的网络捕获是第二步。

cc-index-table GitHub 存储库中有大量列式索引示例(多种编程语言)。

© www.soinside.com 2019 - 2024. All rights reserved.