雅典娜中的数据计数不正确

问题描述 投票:0回答:1

我有一个表,如the attached image中所述。其数据来自Firehose(最大缓冲区:128 MB或900秒)

  • 当我尝试简单计数时,它返回一个尴尬的数字296!尽管扫描的数据量很大,为12GB,而该数据集中的每个记录为5KB]]

  • 当我尝试在Glue Job中加载和处理该数据集时,它将返回预期的计数:1778072

  • 我不知道原因是否是类型为request_query的字段array<string>。>

    由于该作业用于实际工作流程,所以有时候我只想查询基本数据,例如iphttp_user_agent,...并且该架构足以完成这些任务,而无需编写另一个作业脚本并等待其成功完成]

希望有一些解决方法

*编辑

我正在从Athena控制台运行。这里有几个示例查询:

SELECT count(case when request_api = 'collections' then 1 end)
FROM "request_events"
where event_day = '2020-03-01'
and tenant_id = 'devsite.com'

SELECT request_api, count(*)
FROM "request_events"
where event_day = '2020-03-01'
and tenant_id = 'devsite.com'
group by request_api
  • 编辑2

    我测试过的sample data的12条记录的附加文件,结果是1条记录

我有一张如所附图像中所述的表格。它的数据来自Firehose(最大缓冲区:128 MB或900秒),当我尝试简单计数时,它返回一个尴尬的数字296!尽管...

hive aws-glue amazon-athena amazon-kinesis-firehose aws-glue-data-catalog
1个回答
0
投票

为了从Athena获得正确的计数,您需要用换行符分隔输入(firehose默认情况下不支持)尝试在JSON之间添加新行并检查计数

© www.soinside.com 2019 - 2024. All rights reserved.