火花中的Java 8流开销

Question

我不是Spark的专家，我正在使用Spark进行一些计算。

    // [userId, lastPurchaseLevel]
    JavaPairRDD<String, Integer> lastPurchaseLevels = 
            levels.groupByKey()
            .join(purchases.groupByKey())
            .mapValues(t -> getLastPurchaseLevel(t));

在getLastPurchaseLevel（）函数中，我有这样的代码：

private static Integer getLastPurchaseLevel(Tuple2<Iterable<SourceLevelRecord>, Iterable<PurchaseRecord>> t) {

....
final Comparator<PurchaseRecord> comp = (a, b) -> Long.compare(a.dateMsec, b.dateMsec);
PurchaseRecord latestPurchase = purchaseList.stream().max(comp).get();

但我的老板告诉我不要使用流（），他说：

我们更好地采用经典方式，因为没有CPU核心可以进行流式传输 - 所有CPU都已经被Spark工作者使用。

我知道经典的方法是迭代并找到最大值，因此流将导致比经典方式更多的CPU消耗或开销？或者只是在这种Spark环境中？

Answer 1

我们更好地采用经典方式，因为没有CPU核心可以进行流式传输 - 所有CPU都已经被Spark工作者使用。

老板的想法：Spark已经将任务安排到线程（或cpu内核），不需要在单个任务中同时执行任务。

...所以流将导致比经典方式更多的CPU消耗或开销？或者只是在这种Spark环境中？

除非另有说明（通过调用Stream.parallel（）方法），Java流是单线程的。所以只要你没有并行化流，你的老板就不会抱怨。

火花中的Java 8流开销

问题描述投票：1回答：1

1个回答

最新问题

火花中的Java 8流开销

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1