rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

如何在spark中将Avro Schema对象转换为StructType

我有一个 Row 类型的 RDD，即 RDD[Row] 和 avro 模式对象。我需要使用此信息创建一个数据框。我需要将 avro 架构对象转换为 StructType 以创建 DataFrame。你能...

apache-spark schema rdd avro

回答 6 投票 0

内存警告中没有足够的空间来缓存rdd

我正在运行 Spark 作业，并且收到“内存警告中没有足够的空间来缓存 rdd_128_17000”。然而，在附件中，显然说只使用了 719.3 G 中的 90.8 G。这是为什么？那个...

amazon-web-services amazon-s3 apache-spark rdd

回答 4 投票 0

无法压缩分区数量不等的 RDD。我可以用什么来替代 zip？

我有三个相同大小的RDD，rdd1包含一个字符串标识符，rdd2包含一个向量，rdd3包含一个整数值。本质上我想将这三个压缩在一起以获得 RDD [S...

scala apache-spark rdd

回答 3 投票 0

Spark Left Outer Join 会在不应该生成Optional.empty 时生成Optional.empty

我有一个包含节点对的 RDD，我需要为它们分配唯一的 id。但我遇到了 NPE，我不知道如何解决它。我基本上将所有节点放入一个不同的列表中......

java scala apache-spark left-join rdd

回答 1 投票 0

数据框值替换

我试图用“yyyy-MM”+“-01”替换“yyyy-MM”，下面是我的代码，但我没有得到正确的结果。请注意，我正在研究数据块：从 pyspark.sql.functions 导入 col、concat、lit、when #S...

python dataframe pyspark databricks rdd

回答 1 投票 0

如何读取apache Spark中最新的分区

我使用了包含查询的数据框 df : Dataframe =spark.sql(s"显示分区 $yourtablename") 现在分区的数量每天都在变化，因为它每天都在运行。主要...

dataframe apache-spark apache-spark-sql rdd natural-sort

回答 3 投票 0

Python 工作线程意外退出（崩溃）

在命令提示符下运行 rdd = sc.parallelize([1,2,3]) 后，我在运行 rdd.first() 时收到此错误。 py4j.protocol.Py4JJavaError：调用 z:org.apache.spark.api 时发生错误。

python pyspark command-prompt rdd

回答 1 投票 0

非HDFS RDD的内存布局是怎样的？

我是 Spark 新手，我试图直观地了解 RDD 在内存中的表示方式。 HDFS RDD 很简单，因为分区由文件系统本身处理。即HDFS本身划分了一个

apache-spark rdd memory-layout

回答 1 投票 0

spark - 非 HDFS RDD 的内存布局是什么？

我是 Spark 新手，我试图直观地了解 RDD 在内存中的表示方式。 HDFS RDD 很简单，因为分区由文件系统本身处理。即HDFS本身划分了一个

apache-spark rdd memory-layout

回答 1 投票 0

RDD.aggregate() 如何处理分区？

我是 Spark 的新手，并试图了解像reduce、aggregate 等函数是如何工作的。在执行 RDD.aggregate() 时，我尝试将 ZeroValue 更改为身份以外的其他内容（0 表示

apache-spark pyspark bigdata rdd apache-spark-dataset

回答 1 投票 0

使用 python 将空列添加到 Spark 中的数据框

我有一个数据框，我想将其与另一个数据框创建 unionAll。问题是第二个数据框比第一个数据框多了三列。有没有办法让我添加三个列...

python pyspark apache-spark-sql rdd

回答 3 投票 0

Spark SparkFiles.get() 返回驱动程序路径而不是工作程序路径

我正在通过外部可执行文件管道传输 RDD 的分区。我使用sparkContext.addFiles()，以便工作人员可以使用可执行文件。当我尝试运行代码时，我得到...

apache-spark pyspark databricks rdd executor

回答 1 投票 0

Spark中RDDS的物化是什么？

我一直在寻找物化的含义，并且不断获得 persist() 函数的链接。但更根本和概念上，Rdds 的物化有什么帮助以及什么是......

scala apache-spark rdd

回答 1 投票 0

Spark内部使用Map-Reduce吗？

Spark内部使用MapReduce吗？（自己的地图缩小）第一次听到有人告诉我“Spark 使用 Map-Reduce”时，我很困惑，我总是知道 Spark 是一种替代方案......

apache-spark mapreduce apache-spark-sql rdd

回答 1 投票 0

在不使用collect的情况下将列值提取到pyspark中的变量中

我的目标是如果可能的话，将列值作为 pyspark 数据帧中的列表获取到变量中。预期输出 = ["a", "b", "c", ... ] 我试过： [ 上校.__得到...

python pyspark rdd pyspark-pandas

回答 1 投票 0

如何在 Pyspark RDD 中找到常见的对，而不管它们的顺序如何？

我想找出有联系过的那一对。以下是数据：输入是 K-\> M、H M-\> K、E H-\> F B-\> T、H E-\> K、H F-\> K、H、E A-\> Z 还有

python pyspark rdd

回答 2 投票 0

如何在 Pyspark RDD 中找到常见的对，无论其顺序如何？

我想找出有联系过的那一对。以下是数据：输入是 K-\> M, H //(这意味着K向M和H发送电子邮件) M-\> K、E H-\> F B-\> T、H E-\&...

pyspark rdd

回答 1 投票 0

从 PySpark RDD 中删除重复的元组对

我得到了一个rdd。例子：测试 = sc.parallelize([(1,0), (2,0), (3,0)]) 我需要获取笛卡尔积并删除具有重复条目的结果元组对。在这个玩具示例中，这些...

python-3.x apache-spark pyspark rdd

回答 2 投票 0

如何在 PySpark 中从数组中提取元素

python apache-spark pyspark rdd

回答 2 投票 0

如何使用spark RDD操作获得防御力最大的所有神奇宝贝？

我尝试使用spark RDD操作找到所有具有最高防御值的神奇宝贝，但我只找到了具有最高防御值的3个神奇宝贝中的一个。有什么办法可以得到...

python apache-spark rdd

回答 3 投票 0

rdd 相关问题

最新问题