rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

如何使用Scala中的Spark从RDD文件行中选择多个元素

我是spark和scala的新手,我想从数据集中选择几个列。我使用以下命令在RDD中将我的数据转换为文件:val dataset = sc.textFile(args(0))然后我拆分我的行val resu = ...

回答 2 投票 0

根据spark中的模式匹配加载文件

我有31个输入文件,命名从date = 2018-01-01到date = 2018-01-31。我能够以这种方式将所有这些文件加载 到rdd中:val input = sc.textFile(“hdfs:// user / cloudera / date = *”)但是...

回答 2 投票 2

PySpark RDD到数据帧,带有元组和字典列表

我在pyspark中处理了一些数据,它是一个具有这种结构的RDD [(u'991',{'location':'Australia','Age':'27','Color':Pink}),(u '993',{'location':'新加坡','年龄':'55','......

回答 1 投票 0

如何打印已加入的RDD结果

我有两个RDD:scala> mgrMap.take(5).foreach(println)(1,Cliff)(2,Raj)(3,Alim)(4,Jose)(5,Jeff)和salMap.take(5) .foreach(println)(1,100)(2,200)(3,300)(4,400)(5,500)我加入了他们......

回答 1 投票 0

Pyspark UDF for Dataframe vs RDD

我的数据帧的架构是:root | - _10:string(nullable = true)| - _11:string(nullable = true)| - _12:string(nullable = true)| - _13:string(nullable =真)| --...

回答 1 投票 0

当Spark从S3读取大文件时,可以将数据分发到不同的节点

假设我在S3上有一个大型数据文件,并希望将其加载到Spark集群以执行某些数据处理。当我使用sc.textFile(filepath)将文件加载到RDD时,我的集群中的每个节点都将...

回答 1 投票 0

从可变长度CSV到对RDD的Spark转换

我是scala spark的新手,我有一个CSV文件,如下所示。 R001,A,10,C,30,D,50,X,90 R002,E,40,F,70,G,80,H,90,J,25 R003,L,30,M,54,N, 67,O,25,P,85,Q,100如何转换......

回答 3 投票 2

循环RDD以使用Scala在Spark中创建图形

尝试循环使用RDD并使用每条记录上的数据创建Graphs。代码是这样的:bigjoin具有结构RDD [(String,List [(Long,Long)])] bigjoin.foreach(a => {...

回答 1 投票 0

循环遍历大型数据帧并执行sql

我有一个大文件(~5GB),我已加载到数据帧中。现在我必须从每一行获取一个值(fid)并获取同一数据帧中的相应行。 var references = df.sqlContext.sql(...

回答 1 投票 0

JMS消息使用RDD来确保仅用于确认目的的安全性

我理解JMS会话不是线程安全的。但是,如果我尝试确认在Spark RDD上“存储”的Message对象,会话是否实际同时被访问?怎么 ...

回答 1 投票 0

Spark / Scala Rdd和DataFrame的groupBy函数之间的任何工作差异[重复]

我已经检查过并且有点好奇了解RDD和DataFrame的groupBy函数。是否有任何性能差异或其他?请建议。

回答 1 投票 0

Scala - 为什么函数返回Unit而不是RDD? [重复]

当我实现该功能时,我希望它返回一个RDD。并可能稍后将其收集到List。但为什么它会返回Unit呢?我应该在实施中做些什么来改变它...

回答 1 投票 -1

如何在Spark中将大量文件加载到一个RDD中

我使用saveAsTextFile方法来保存RDD,但它不在文件中,而是有许多部分文件如下图所示。所以,我的问题是如何将这些文件重新加载到一个RDD中。

回答 2 投票 0

Scala组合功能问题

我有一个这样的输入文件:莎士比亚的作品,威廉·莎士比亚语言:英语和我想使用flatMap和组合方法来获得每行的K-V对。这是什么 ...

回答 1 投票 0

Spark中的DataFrame,Dataset和RDD之间的区别

我只是想知道Apache Spark中RDD和DataFrame(Spark 2.0.0 DataFrame只是Dataset [Row]的类型别名)有什么区别?你能把一个转换成另一个吗?

回答 14 投票 198

© www.soinside.com 2019 - 2024. All rights reserved.