我有一个表,如the attached image中所述。其数据来自Firehose(最大缓冲区:128 MB或900秒)
当我尝试简单计数时,它返回一个尴尬的数字296!尽管扫描的数据量很大,为12GB,而该数据集中的每个记录为5KB]]
当我尝试在Glue Job中加载和处理该数据集时,它将返回预期的计数:1778072
我不知道原因是否是类型为request_query
的字段array<string>
。>
由于该作业用于实际工作流程,所以有时候我只想查询基本数据,例如ip
,http_user_agent
,...并且该架构足以完成这些任务,而无需编写另一个作业脚本并等待其成功完成]
希望有一些解决方法
*编辑
我正在从Athena控制台运行。这里有几个示例查询:
SELECT count(case when request_api = 'collections' then 1 end)
FROM "request_events"
where event_day = '2020-03-01'
and tenant_id = 'devsite.com'
SELECT request_api, count(*)
FROM "request_events"
where event_day = '2020-03-01'
and tenant_id = 'devsite.com'
group by request_api
我测试过的sample data的12条记录的附加文件,结果是1条记录
我有一张如所附图像中所述的表格。它的数据来自Firehose(最大缓冲区:128 MB或900秒),当我尝试简单计数时,它返回一个尴尬的数字296!尽管...
为了从Athena获得正确的计数,您需要用换行符分隔输入(firehose默认情况下不支持)尝试在JSON之间添加新行并检查计数