rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

如果选项类型为None,则使用getOrElse不返回任何内容(Scala)

我正在使用RDD创建一个左外连接,因为到目前为止,我有以下结果:scala> LeftJoinedDataset.foreach(println) (300000004,Trevor,Parr,Some((35 Jedburgh Road,PL23 6BA))) (300000006,...)

回答 1 投票 0

无法解决任务不可序列化 [org.apache.spark.SparkException: Task not serializable] Spark Scala RDD

我有以下类和方法: class Sample(sprk: SparkSession,dir="xyz",tdir = "abc") { val VERSION = "v1" def newRDD(path: String) = { sprk.sparkContext.textFile(...)

回答 1 投票 0

使用Apache Spark在多个对子上有效地进行卡方积的计算。

旧的上下文我在我的数据集上做一个计算,要求每个元素都要与自身结合,即通过在JavaPairRDD上执行mapToPair >,...

回答 1 投票 1

Spark中的Dataframe coalesce是否保留顺序?

我使用 coalesce(1)将 Dataframe 写入单个文件,就像这样。df.coalesce(1).write.format("csv") .option("header", true).mode("overwrite").save(output_path) 快速浏览一下文件,就会发现......。

回答 1 投票 0

在PySpark中创建Apache Spark类的RDD。

我需要将一段Scala代码转换为python代码。Scala代码将字符串的RDD转换为case类的RDD。代码如下: case class Stock( stockName: String, ...

回答 1 投票 0

在rdd.map func中把Scala case类转移到JsValue,但Task不可序列化。

我是ScalaSpark的新手,我有一个case类的RDD case类Info(key1 : String, key2 : String, key3 : String),我想把RDD[Info]转移到RDD[JsString]中,然后保存到ElasticSearch中,我用...

回答 1 投票 1

一个spark数据框架的分区数?

我有一个spark数据框架(Spark 2.3),它存储的sql记录为零。当我试图计算分区数时,它不显示任何结果,并尝试了各种函数,如df.rdd......。

回答 1 投票 0

如何在两个不同的spark rdd中获取所有不同的记录

对于火花和RDD来说是非常新的东西,所以我希望我能很好地解释一下,以便有人理解和帮助:)我有两组非常大的数据,可以说300万行,50列,这...

回答 2 投票 0

通过以下代码,如何将JavaRDD 转换为DataFrame或DataSet

public static void main(String [] args){SparkSession sessn = SparkSession.builder()。appName(“ RDD2DF”)。master(“ local”)。getOrCreate(); List lst = Arrays.asList(1,2,3,4,5,...

回答 1 投票 0

rdd上的标量图错误java.lang.NullPointerException

当我尝试映射从HDFS读取的rdds时,出现了一个奇怪的错误,这是我的代码(简体)。我试图将RDD放入scala映射,然后选择某些键值来写入HDFS。我跑了一块...

回答 1 投票 0

Spark中RDD的UNION的非确定性行为

我正在3个RDD上执行Union操作,我知道Union不会保留顺序,但是就我而言,这很奇怪。有人可以向我解释我的代码有什么问题吗?我有一个...

回答 1 投票 0

何时在Spark中使用RDD和DataFrame

根据我的阅读,RDD不能像DataFrame那样利用Spark对结构化数据进行的优化,是否证明在处理非结构化数据源时我们应该使用RDD,...

回答 1 投票 0

中间rdd和rdd.persist()之间的差异

[我知道,在Spark处理中有多个阶段时,中间阶段rdd会存储到作业完成为止,但我会读到他们对cache()和persist()的使用的感觉,就像他们正在做的那样...

回答 1 投票 0

使用pyspark RDD分割出错误的csv文件。 EMR。纱线内存异常错误

我已经在这段代码上工作了一段时间。以下列出了我在EMR上使用的代码和大多数群集属性。该代码的目的是在一个...

回答 1 投票 0

无法创建简单的RDD-Scala中的并行集合

我想创建一个集合的rdd,并最终将其存储在可以写回csv的数据框中。这是我的代码:import org.apache.log4j。{Level,Logger} import org.apache.spark ....

回答 1 投票 -2

在scala中使用println

我正在尝试使用println以某种格式打印输出,但无法获取。 val vgdataLines = sc.textFile(“ hdfs:///user/ashhall1616/bdc_data/assignment/t1/vgsales-small.csv”)val vgdata = ...

回答 1 投票 0

如何将具有多个分隔符的文件转换为数据框

我的文本文件如下1234_4567_DigitalDoc_XRay-01.pdf 2345_5678_DigitalDoc_CTC-03.png 1234_5684_DigitalDoc_XRay-05.pdf 1234_3345_DigitalDoc_XRay-02.pdf我期望输出为| catg | ...

回答 4 投票 1

我有带有空值的示例数据框,我希望将空值移到右侧的列值

样本输入数据框:+ --- + --- + ---- + ---- + ---- + | A | B | C | D | E | + --- + --- + ---- + ---- + ---- + | 1 | 2 | 3 | 4 | 5 | | 6 | 7 | null | 8 | 9 | | 10 | 11 | 12 | null | null | + --- + --- + ---- + ---- + ---- + ...

回答 1 投票 0

我们什么时候应该使用Spark-sql,什么时候应该使用Spark RDD

在哪种情况下,我们应该首选spark RDD编写解决方案,在哪种情况下,我们应该选择使用spark-sql。我知道spark-sql可以提供更好的性能,并且在结构上效果最佳...

回答 3 投票 0

spark RDD中的分区数

我正在通过指定分区数从文本文件创建RDD(Spark 1.6)。但这给了我与指定分区不同数量的分区。情况1 scala> val people = sc ....

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.