rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

如何在spark中将Avro Schema对象转换为StructType

我有一个 Row 类型的 RDD,即 RDD[Row] 和 avro 模式对象。我需要使用此信息创建一个数据框。 我需要将 avro 架构对象转换为 StructType 以创建 DataFrame。 你能...

回答 6 投票 0

内存警告中没有足够的空间来缓存rdd

我正在运行 Spark 作业,并且收到“内存警告中没有足够的空间来缓存 rdd_128_17000”。然而,在附件中,显然说只使用了 719.3 G 中的 90.8 G。这是为什么?那个...

回答 4 投票 0

无法压缩分区数量不等的 RDD。我可以用什么来替代 zip?

我有三个相同大小的RDD,rdd1包含一个字符串标识符,rdd2包含一个向量,rdd3包含一个整数值。 本质上我想将这三个压缩在一起以获得 RDD [S...

回答 3 投票 0

Spark Left Outer Join 会在不应该生成Optional.empty 时生成Optional.empty

我有一个包含节点对的 RDD,我需要为它们分配唯一的 id。 但我遇到了 NPE,我不知道如何解决它。 我基本上将所有节点放入一个不同的列表中......

回答 1 投票 0

数据框值替换

我试图用“yyyy-MM”+“-01”替换“yyyy-MM”,下面是我的代码,但我没有得到正确的结果。请注意,我正在研究数据块: 从 pyspark.sql.functions 导入 col、concat、lit、when #S...

回答 1 投票 0

如何读取apache Spark中最新的分区

我使用了包含查询的数据框 df : Dataframe =spark.sql(s"显示分区 $yourtablename") 现在分区的数量每天都在变化,因为它每天都在运行。 主要...

回答 3 投票 0

Python 工作线程意外退出(崩溃)

在命令提示符下运行 rdd = sc.parallelize([1,2,3]) 后,我在运行 rdd.first() 时收到此错误。 py4j.protocol.Py4JJavaError:调用 z:org.apache.spark.api 时发生错误。

回答 1 投票 0

非HDFS RDD的内存布局是怎样的?

我是 Spark 新手,我试图直观地了解 RDD 在内存中的表示方式。 HDFS RDD 很简单,因为分区由文件系统本身处理。即HDFS本身划分了一个

回答 1 投票 0

spark - 非 HDFS RDD 的内存布局是什么?

我是 Spark 新手,我试图直观地了解 RDD 在内存中的表示方式。 HDFS RDD 很简单,因为分区由文件系统本身处理。即HDFS本身划分了一个

回答 1 投票 0

RDD.aggregate() 如何处理分区?

我是 Spark 的新手,并试图了解像reduce、aggregate 等函数是如何工作的。 在执行 RDD.aggregate() 时,我尝试将 ZeroValue 更改为身份以外的其他内容(0 表示

回答 1 投票 0

使用 python 将空列添加到 Spark 中的数据框

我有一个数据框,我想将其与另一个数据框创建 unionAll。问题是第二个数据框比第一个数据框多了三列。有没有办法让我添加三个列...

回答 3 投票 0

Spark SparkFiles.get() 返回驱动程序路径而不是工作程序路径

我正在通过外部可执行文件管道传输 RDD 的分区。我使用sparkContext.addFiles(),以便工作人员可以使用可执行文件。 当我尝试运行代码时,我得到...

回答 1 投票 0

Spark中RDDS的物化是什么?

我一直在寻找物化的含义,并且不断获得 persist() 函数的链接。但更根本和概念上,Rdds 的物化有什么帮助以及什么是......

回答 1 投票 0

Spark内部使用Map-Reduce吗?

Spark内部使用MapReduce吗? (自己的地图缩小) 第一次听到有人告诉我“Spark 使用 Map-Reduce”时,我很困惑,我总是知道 Spark 是一种替代方案......

回答 1 投票 0

在不使用collect的情况下将列值提取到pyspark中的变量中

我的目标是如果可能的话,将列值作为 pyspark 数据帧中的列表获取到变量中。 预期输出 = ["a", "b", "c", ... ] 我试过 : [ 上校.__得到...

回答 1 投票 0

如何在 Pyspark RDD 中找到常见的对,而不管它们的顺序如何?

我想找出有联系过的那一对。以下是数据: 输入是 K-\> M、H M-\> K、E H-\> F B-\> T、H E-\> K、H F-\> K、H、E A-\> Z 还有

回答 2 投票 0

如何在 Pyspark RDD 中找到常见的对,无论其顺序如何?

我想找出有联系过的那一对。以下是数据: 输入是 K-\> M, H //(这意味着K向M和H发送电子邮件) M-\> K、E H-\> F B-\> T、H E-\&...

回答 1 投票 0

从 PySpark RDD 中删除重复的元组对

我得到了一个rdd。例子: 测试 = sc.parallelize([(1,0), (2,0), (3,0)]) 我需要获取笛卡尔积并删除具有重复条目的结果元组对。 在这个玩具示例中,这些...

回答 2 投票 0

如何在 PySpark 中从数组中提取元素

我有一个具有以下类型的数据框: 列1|列2|列3|列4 xxxx|yyyy|zzzz|[1111],[2222] 我希望我的输出具有以下类型: 列1|列2|列3|列4|列5 xxxx|yyyy|zzzz|1111|2222 我的 col4 我...

回答 2 投票 0

如何使用spark RDD操作获得防御力最大的所有神奇宝贝?

我尝试使用spark RDD操作找到所有具有最高防御值的神奇宝贝,但我只找到了具有最高防御值的3个神奇宝贝中的一个。有什么办法可以得到...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.