Apache Druid:计数异常值

问题描述 投票:0回答:1

我准备了一个Apache Druid的安装,该安装从Kafka主题获取数据。它运行非常平稳高效。

我目前正在尝试实现一些查询,但我陷入了列值离群的行数(按某些字段分组)的问题。在普通的SQL世界中,我基本上将计算第一和第三四分位数(q1和q3),然后使用类似的内容(我只对“正确的”离群值感兴趣):

SUM(IF(column_value > q3 + 1.5*(q3-q1), 1, 0))

[这种方法利用了cte和joins:我通过分组计算cte中的四分位数,然后将其与原始表连接起来。

我能够使用groupBy查询通过datasketch扩展轻松地计算四分位数和离群值阈值,但是我没有意识到如何执行可以执行计数的postAggregation。

理论上,我可以使用在第一个查询中获得的阈值来执行第二个查询。不幸的是,我可以获得成千上万个不同的值。这使这种方法不可行。

您对如何解决此问题有任何建议吗?

我准备了一个Apache Druid的安装,该安装从Kafka主题获取数据。它工作非常顺利和高效。我目前正在尝试实现一些查询,并且陷入了...

outliers druid pydruid
1个回答
0
投票

从0.18.0版本开始,Apache Druid支持联接。这解决了问题。

© www.soinside.com 2019 - 2024. All rights reserved.