用于 Athena 查询的 AWS Glue 爬网程序未显示我在 s3 存储桶中拥有的所有记录

问题描述 投票:0回答:1

我有一个 C# 应用程序,它将审核记录记录到

Kinesis Firehose
,以便将这些记录放入 S3 存储桶中。这工作得很好,因为我可以看到 S3 存储桶中的文件。

我将

Dynamic partition
用于 2 个字段
Entity
EntityName
(这些是我的 json 结构的一部分),因为我读到这样做将有助于降低
Athena
查询的成本并加快结果。

然后我设置了一个

AWS Glue Crawler
指向同一位置的 s3 存储桶。当我第一次运行爬虫时,我获取了数据,然后用
Athena
:

查询它
SELECT * FROM data

在这里你可以看到我得到的9条记录,也可以看到数据模式

然后我在我的 C# 应用程序中进行了一些其他更改以获取更多日志,并且我可以看到添加到我的存储桶中的文件。然后我再次运行爬虫,但 Athena 查询仍然显示相同的 9 条记录。

似乎爬虫由于某种原因没有找到或更新数据。

有什么线索吗?

aws-glue amazon-athena amazon-kinesis
1个回答
0
投票

您需要运行爬虫。

  1. 转到 AWS Glue 中的爬网程序。
  2. 点击您感兴趣的爬虫名称。
  3. 单击“运行爬网程序”。
  4. 如果您想以频率时间运行爬虫,请前往计划。
© www.soinside.com 2019 - 2024. All rights reserved.