rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

我正在使用RDD创建一个左外连接，因为到目前为止，我有以下结果：scala> LeftJoinedDataset.foreach(println) (300000004,Trevor,Parr,Some((35 Jedburgh Road,PL23 6BA))) (300000006,...)

scala join rdd

回答 1 投票 0

无法解决任务不可序列化 [org.apache.spark.SparkException: Task not serializable] Spark Scala RDD

我有以下类和方法： class Sample(sprk: SparkSession,dir="xyz",tdir = "abc") { val VERSION = "v1" def newRDD(path: String) = { sprk.sparkContext.textFile(...)

scala apache-spark apache-spark-sql rdd

回答 1 投票 0

使用Apache Spark在多个对子上有效地进行卡方积的计算。

旧的上下文我在我的数据集上做一个计算，要求每个元素都要与自身结合，即通过在JavaPairRDD上执行mapToPair >，...

java apache-spark rdd spark-java

回答 1 投票 1

Spark中的Dataframe coalesce是否保留顺序？

我使用 coalesce(1)将 Dataframe 写入单个文件，就像这样。df.coalesce(1).write.format("csv") .option("header", true).mode("overwrite").save(output_path) 快速浏览一下文件，就会发现......。

dataframe apache-spark rdd shuffle

回答 1 投票 0

在PySpark中创建Apache Spark类的RDD。

我需要将一段Scala代码转换为python代码。Scala代码将字符串的RDD转换为case类的RDD。代码如下： case class Stock( stockName: String, ...

apache-spark pyspark rdd case-class python-dataclasses

回答 1 投票 0

在rdd.map func中把Scala case类转移到JsValue，但Task不可序列化。

我是ScalaSpark的新手，我有一个case类的RDD case类Info(key1 : String, key2 : String, key3 : String)，我想把RDD[Info]转移到RDD[JsString]中，然后保存到ElasticSearch中，我用...

scala apache-spark elasticsearch rdd

回答 1 投票 1

一个spark数据框架的分区数？

我有一个spark数据框架(Spark 2.3)，它存储的sql记录为零。当我试图计算分区数时，它不显示任何结果，并尝试了各种函数，如df.rdd......。

dataframe apache-spark apache-spark-sql rdd

回答 1 投票 0

如何在两个不同的spark rdd中获取所有不同的记录

对于火花和RDD来说是非常新的东西，所以我希望我能很好地解释一下，以便有人理解和帮助:)我有两组非常大的数据，可以说300万行，50列，这...

scala apache-spark pyspark rdd

回答 2 投票 0

通过以下代码，如何将JavaRDD 转换为DataFrame或DataSet

public static void main（String [] args）{SparkSession sessn = SparkSession.builder（）。appName（“ RDD2DF”）。master（“ local”）。getOrCreate（）; List lst = Arrays.asList（1,2,3,4,5，...

apache-spark apache-spark-sql rdd sparkcore

回答 1 投票 0

rdd上的标量图错误java.lang.NullPointerException

当我尝试映射从HDFS读取的rdds时，出现了一个奇怪的错误，这是我的代码（简体）。我试图将RDD放入scala映射，然后选择某些键值来写入HDFS。我跑了一块...

java scala apache-spark rdd

回答 1 投票 0

Spark中RDD的UNION的非确定性行为

我正在3个RDD上执行Union操作，我知道Union不会保留顺序，但是就我而言，这很奇怪。有人可以向我解释我的代码有什么问题吗？我有一个...

scala sorting apache-spark union rdd

回答 1 投票 0

何时在Spark中使用RDD和DataFrame

根据我的阅读，RDD不能像DataFrame那样利用Spark对结构化数据进行的优化，是否证明在处理非结构化数据源时我们应该使用RDD，...

dataframe apache-spark rdd

回答 1 投票 0

中间rdd和rdd.persist（）之间的差异

[我知道，在Spark处理中有多个阶段时，中间阶段rdd会存储到作业完成为止，但我会读到他们对cache（）和persist（）的使用的感觉，就像他们正在做的那样...

python apache-spark rdd

回答 1 投票 0

使用pyspark RDD分割出错误的csv文件。 EMR。纱线内存异常错误

我已经在这段代码上工作了一段时间。以下列出了我在EMR上使用的代码和大多数群集属性。该代码的目的是在一个...

apache-spark pyspark rdd

回答 1 投票 0

无法创建简单的RDD-Scala中的并行集合

我想创建一个集合的rdd，并最终将其存储在可以写回csv的数据框中。这是我的代码：import org.apache.log4j。{Level，Logger} import org.apache.spark ....

scala apache-spark rdd

回答 1 投票 -2

在scala中使用println

我正在尝试使用println以某种格式打印输出，但无法获取。 val vgdataLines = sc.textFile（“ hdfs：///user/ashhall1616/bdc_data/assignment/t1/vgsales-small.csv”）val vgdata = ...

scala apache-spark-sql rdd

回答 1 投票 0

如何将具有多个分隔符的文件转换为数据框

我的文本文件如下1234_4567_DigitalDoc_XRay-01.pdf 2345_5678_DigitalDoc_CTC-03.png 1234_5684_DigitalDoc_XRay-05.pdf 1234_3345_DigitalDoc_XRay-02.pdf我期望输出为| catg | ...

dataframe apache-spark rdd

回答 4 投票 1

我有带有空值的示例数据框，我希望将空值移到右侧的列值

样本输入数据框：+ --- + --- + ---- + ---- + ---- + | A | B | C | D | E | + --- + --- + ---- + ---- + ---- + | 1 | 2 | 3 | 4 | 5 | | 6 | 7 | null | 8 | 9 | | 10 | 11 | 12 | null | null | + --- + --- + ---- + ---- + ---- + ...

scala dataframe apache-spark rdd

回答 1 投票 0

我们什么时候应该使用Spark-sql，什么时候应该使用Spark RDD

在哪种情况下，我们应该首选spark RDD编写解决方案，在哪种情况下，我们应该选择使用spark-sql。我知道spark-sql可以提供更好的性能，并且在结构上效果最佳...

apache-spark pyspark apache-spark-sql rdd

回答 3 投票 0

spark RDD中的分区数

我正在通过指定分区数从文本文件创建RDD（Spark 1.6）。但这给了我与指定分区不同数量的分区。情况1 scala> val people = sc ....

apache-spark rdd partition

回答 1 投票 1

rdd 相关问题

最新问题