rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

java.lang.StackOverflowError抛出spark-submit但不在IDE中运行

我开发了一个用于协同过滤的Spark 2.2应用程序。它在IntelliJ中可以正常运行或调试。我也可以输入Spark Web UI来检查进程。但是当我试图部署时......

scala apache-spark stack-overflow rdd data-lineage

回答 1 投票 0

从JavaRDD生成直方图

我正在尝试编写用于将Java RDD中的数据转换为直方图的代码，以便我可以以某种方式对数据进行分区。例如，对于我想要创建大小直方图的数据，我可以......

apache-spark rdd

回答 1 投票 0

如何在Spark中按键分区RDD？

鉴于HashPartitioner文档说：[HashPartitioner]使用Java的Object.hashCode实现基于散列的分区。假设我想按类型对DeviceData进行分区。案例类DeviceData（...

scala apache-spark rdd

回答 2 投票 9

将KVP中的RDD值转换为PySpark中的整数

我试图将我的RDD键值对中的列[2]值从字符串转换为整数，以便我能够将它们相加并计算平均值。我试图让列[2]自动...

python type-conversion integer pyspark rdd

回答 2 投票 0

Scala：如何从RDD获取PortableDataStream实例的内容

因为我想从binaryFiles中提取数据，所以我使用val dataRDD = sc.binaryRecord（“Path”）读取文件。我得到的结果为org.apache.spark.rdd.RDD [（String，org.apache.spark.input。 PortableDataStream）...

scala apache-spark rdd

回答 1 投票 0

Spark / Scala更新另一个地图中变量的值？

在Spark中，我有一个最近的：org.apache.spark.rdd.RDD [（Int，（breeze.linalg.Vector [Double]，Int））] = MapPartitionsRDD [476] at map at command-1043253026161724：1我想要计算总数......

scala apache-spark rdd

回答 1 投票 0

如何使用Spark RDD进行批量提交？

我有很多项目的RDD，只需简化它们：[0,1,2,3,4,5,6,7,8,9]并将这些项目提交给批处理API（API.post（a []））。但API限制最大批次（exp.3）。所以为了获得最佳性能，我需要......

apache-spark rdd

回答 1 投票 -2

如何获得Spark RDD的第n行？

假设我有一个任意对象的RDD。我希望获得RDD的第10行（比如说）。我该怎么办？一种方法是使用rdd.take（n）然后访问第n个元素是对象，但是这个......

hadoop apache-spark rdd

回答 3 投票 8

运行时评估函数与Spark数据集/ RDD不兼容

我有一个火花应用程序。我的用例是允许用户定义一个类似于Record => Record作为“规则”的任意函数，该函数将应用于RDD / Dataset的每个记录。以下......

scala apache-spark rdd

回答 1 投票 1

使用rdd.map（）映射到RDD的函数，对于某些行多次调用

我有一个源数据框，有一些记录。我想对此数据帧的每一行执行一些操作。为此，使用了rdd.map函数。但是，看着记录的日志......

python apache-spark pyspark rdd

回答 1 投票 0

Spark：按ID创建JSON组

我有dataFrame unionDataDF和样本数据+ --- + ------------------ + ---- + | ID |数据|关键| + --- + ------------------ + ---- + | 1 | [{ “数据”： “DATA1”}] | KEY1 | | 2 | [{ “数据”： “数据2”}] | KEY1 | | ...

scala apache-spark apache-spark-sql rdd

回答 1 投票 0

Spark：RDD到List

我有一个RDD结构RDD [（String，String）]，我想创建2个列表（一个用于rdd的每个维度）。我尝试使用rdd.foreach（）并填充两个ListBuffers，然后将它们转换为...

scala list apache-spark rdd

回答 2 投票 14

Pyspark collectAsMap（）UDAF替代 - 无法序列化对象：Py4JError：调用o62时发生错误.__ getstate__ [重复]

我正在尝试将聚合函数应用于pyspark中的列。上下文是我手边只有Spark 2.2，没有选择使用矢量化pandas_udf sdt = spark.createDataFrame（zip（[random ....

scala apache-spark pyspark mapreduce rdd

回答 1 投票 -1

如何在pyspark中将rdd转换为嵌套的json

我是新手，我有以下格式的数据类别，子类别，名称食品，泰国，餐厅A食品，泰国菜，餐厅B食品，中餐，餐厅C住宿，酒店，酒店A我想要数据...