在Apache Spark中最有效的地图缩减方法是什么?

问题描述 投票:-1回答:1

我有大量CSV格式的数据。随着公司从Hadoop迁移到Spark,我们从Spark的基本内容开始。

我正在尝试做的过程是1.从CSV读取记录2.向每个记录添加一个键。3.按每个键分组,因此我可以选择“最佳”记录4.用实木复合地板写出每个“最佳”记录。

我不确定性能方面的一点,是向每个记录添加一个密钥,然后遍历整个记录集。

我阅读的每个地方都告诉我避免由于性能问题而避免使用Dataset.groupByKey(),但是您还如何将记录变成键/值对,以便减少数据呢?

java apache-spark
1个回答
0
投票

在RDD API中,为了获得最佳性能,可以将reduceByKey与基于“键”进行分区的数据集结合使用。

但是对于数据框/数据集,Spark足够聪明,可以在使用Dataset.groupByKey()时使用最佳优化。>

请参阅此dataset-groupby-behaviour了解更多详细信息

© www.soinside.com 2019 - 2024. All rights reserved.