rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

java.lang.StackOverflowError抛出spark-submit但不在IDE中运行

我开发了一个用于协同过滤的Spark 2.2应用程序。它在IntelliJ中可以正常运行或调试。我也可以输入Spark Web UI来检查进程。但是当我试图部署时......

回答 1 投票 0

从JavaRDD生成直方图

我正在尝试编写用于将Java RDD中的数据转换为直方图的代码,以便我可以以某种方式对数据进行分区。例如,对于我想要创建大小直方图的数据,我可以......

回答 1 投票 0

如何在Spark中按键分区RDD?

鉴于HashPartitioner文档说:[HashPartitioner]使用Java的Object.hashCode实现基于散列的分区。假设我想按类型对DeviceData进行分区。案例类DeviceData(...

回答 2 投票 9

将KVP中的RDD值转换为PySpark中的整数

我试图将我的RDD键值对中的列[2]值从字符串转换为整数,以便我能够将它们相加并计算平均值。我试图让列[2]自动...

回答 2 投票 0

Scala:如何从RDD获取PortableDataStream实例的内容

因为我想从binaryFiles中提取数据,所以我使用val dataRDD = sc.binaryRecord(“Path”)读取文件。我得到的结果为org.apache.spark.rdd.RDD [(String,org.apache.spark.input。 PortableDataStream)...

回答 1 投票 0

Spark / Scala更新另一个地图中变量的值?

在Spark中,我有一个最近的:org.apache.spark.rdd.RDD [(Int,(breeze.linalg.Vector [Double],Int))] = MapPartitionsRDD [476] at map at command-1043253026161724:1我想要计算总数......

回答 1 投票 0

如何使用Spark RDD进行批量提交?

我有很多项目的RDD,只需简化它们:[0,1,2,3,4,5,6,7,8,9]并将这些项目提交给批处理API(API.post(a []) )。但API限制最大批次(exp.3)。所以为了获得最佳性能,我需要......

回答 1 投票 -2

如何获得Spark RDD的第n行?

假设我有一个任意对象的RDD。我希望获得RDD的第10行(比如说)。我该怎么办?一种方法是使用rdd.take(n)然后访问第n个元素是对象,但是这个......

回答 3 投票 8

运行时评估函数与Spark数据集/ RDD不兼容

我有一个火花应用程序。我的用例是允许用户定义一个类似于Record => Record作为“规则”的任意函数,该函数将应用于RDD / Dataset的每个记录。以下......

回答 1 投票 1

使用rdd.map()映射到RDD的函数,对于某些行多次调用

我有一个源数据框,有一些记录。我想对此数据帧的每一行执行一些操作。为此,使用了rdd.map函数。但是,看着记录的日志......

回答 1 投票 0

Spark:按ID创建JSON组

我有dataFrame unionDataDF和样本数据+ --- + ------------------ + ---- + | ID |数据|关键| + --- + ------------------ + ---- + | 1 | [{ “数据”: “DATA1”}] | KEY1 | | 2 | [{ “数据”: “数据2”}] | KEY1 | | ...

回答 1 投票 0

Spark:RDD到List

我有一个RDD结构RDD [(String,String)],我想创建2个列表(一个用于rdd的每个维度)。我尝试使用rdd.foreach()并填充两个ListBuffers,然后将它们转换为...

回答 2 投票 14

Pyspark collectAsMap()UDAF替代 - 无法序列化对象:Py4JError:调用o62时发生错误.__ getstate__ [重复]

我正在尝试将聚合函数应用于pyspark中的列。上下文是我手边只有Spark 2.2,没有选择使用矢量化pandas_udf sdt = spark.createDataFrame(zip([random ....

回答 1 投票 -1

如何在pyspark中将rdd转换为嵌套的json

我是新手,我有以下格式的数据类别,子类别,名称食品,泰国,餐厅A食品,泰国菜,餐厅B食品,中餐,餐厅C住宿,酒店,酒店A我想要数据...

回答 1 投票 -1

如何将List [List [Result]]转换为RDD [Result]?

在我的情况下,结果是最终案例类我不能使用sc.parallelize()因为我的列表非常大并且会使驱动程序崩溃。

回答 2 投票 -1

在Pyspark中选择其他列时,在RDD列上应用转换

我希望能够在将转换应用于其中一个值时选择RDD的多个列。我能够 - 选择特定的列 - 在我的其中一列上应用转换...

回答 1 投票 0

用于激发数据帧的大型numpy数组

我有一个很大的numpy数组。它的形状是(800,224,224,3),这意味着有3个通道的图像(224 * 244)。对于Spark中的分布式深度学习,我想将'numpy array'改为'spark ...

回答 2 投票 1

如何将PySpark RDD线性列表转换为DataFrame?

我想将线性列表转换为数据帧。即,给出以下列表,a = [“a1”,“a2”,“a3”,b1“,”b2“,”b3“,”c1“,”c2“,”c3“]预期结果是,+ - ------------------- + | col1 | col2 | ...

回答 2 投票 -2

pyspark RDD - 特定键上的左外连接

我有两个表A和B,有几百列。我试图在两个表上应用左外连接,但它们都有不同的键。我创建了一个新的列,其中B中的相同键为A.然后能够...

回答 2 投票 -3

ClassCastException:使用saveToCassandra时无法分配scala.collection.immutable.List $ SerializationProxy的实例

我正在使用sssContext的cassandraTable()函数从cassandra中读取数据。它将创建一个DataFrame。我正在将此Df转换为Rdd并将其映射到案例类对象。 dataClass是......

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.