我可以使用group by的自定义分区程序吗？

问题描述投票：1回答：1

假设我知道我的数据集是不平衡的，我知道密钥的分布。我想利用它来编写自定义分区器以充分利用运算符实例。

我知道DataStream#partitionCustom。但是，如果我的流是键控的，它仍然可以正常工作吗？我的工作看起来像：

KeyedDataStream afterCustomPartition = keyedStream.partitionCustom(new MyPartitioner(), MyPartitionKeySelector())

DataStreamUtils.reinterpretAsKeyedStream(afterCustomPartition, new MyGroupByKeySelector<>()).sum()

我想要实现的是：

根据某个键获得流keyBy，以便只使用该键中的元素调用reduce函数。
该组通过基于某些自定义分区跨节点拆分工作。
自定义分区根据并行操作符实例的数量返回一个数字（将被修复并且不需要重新缩放）。
自定义分区从keyBy返回不同的值。但是，qazxsw poi。
让keyBy(x) = keyBy(y) => partition(x) = partition(y)在分区之前最小化网络流量。

用例示例：

数据集：[（0，A），（0，B），（0，C），（1，D），（2，E）]
并行运算符实例数：2
按功能分组：返回该对的第一个元素
分区函数：对于密钥0返回0，对于密钥1和2返回1.优点：处理可能将密钥0和1发送到同一运算符实例的数据偏差，这意味着一个运算符实例将接收80％的数据集。

apache-flink flink-streaming

1个回答

2
投票

遗憾的是，这是不可能的。 pre-aggregation要求对数据进行相同的分区，就像调用DataStreamUtils.reinterpretAsKeyedStream()一样。

此限制的原因是密钥组以及密钥如何映射到密钥组。关键组是Flink关键状态分布的单位。键组的数量决定了运算符的最大并行度，并使用keyBy()进行配置。密钥分配给具有内部散列函数的密钥组。通过更改密钥的分区，相同密钥组的密钥将分布在多台计算机上，这些计算机将无法运行。

为了调整键到机器的分配，您需要将键的分配更改为键组。但是，没有公共或可访问的界面来做到这一点。因此，Flink 1.6不支持自定义密钥分发。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.