rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

Spark-StorageLevel(DISK_ONLY与MEMORY_AND_DISK)和内存不足Java堆空间

最近,我一直在运行大量内存的Spark作业,并开始怀疑Spark的存储级别。我使用了StorageLevel.MEMORY_AND_DISK两次将其RDD之一保留下来。我正在得到...

回答 1 投票 8

在pyspark中创建rdd的rdd

是否可以在pyspark中创建rdd的rdd?我尝试了rdd1 = sc.parallelize([1,2,3])rdd2 = sc.parallelize([4,5,6])rdd3 = sc.parallelize([rdd1,rdd2])并收到错误

回答 2 投票 0

在pyspaek中合并第二个rdd

我在pyspark中有两个rdd rdd1 = sc.parallelize(['a','b'])rdd2 = sc.parallelize(['c','d'])我想生成一个具有对的rdd每个rdd的一个元素。 [[a,c),(b,c),(a,d),(b,d)]我尝试过...

回答 1 投票 0


pyspark中基于rdd的操作中键值的最大值

我对基于rdd的操作不熟悉。我正在尝试了解键值的最大值。我有这样的rdd:RDD = sc.parallelize([(“ A”,2,1),(“ C”,8,5),(“ B”,3,4),(“ A”,7 ,5),(“ C”,5,8),(“ C”,6,...

回答 1 投票 0

具有分而治之的火花

我正在学习Spark,并尝试处理一些巨大的数据集。我不明白为什么看不到采用以下策略(伪)的阶段完成时间减少:data = sc.textFile(dataset).cache()...

回答 1 投票 0

我如何在带有PySpark的RDD中找到每个唯一密钥的最短日期?

我有一个格式为[(ID,Date),(ID,Date)...]的元组列表,日期为datetime格式。作为RDD的示例,我正在使用:[['1',datetime.date(2012,1,01)),('2',datetime.date(...

回答 1 投票 0

在Java Spark中尝试zipWithIndex时出错

我尝试使用zipWithIndex添加具有行号的列,如下所示:spark val df = sc.parallelize(Seq((1.0,2.0),(0.0,-1.0),(3.0,4.0),(6.0,-2.3 )))。toDF(“ x”,“ y”)val rddzip = df.rdd ....

回答 1 投票 1

RDD操作,例如first(),head(),isEmpty()..,它们会评估整个RDD吗?或只是其中的一部分?

我有一个RDD,groupResultMap,并在下面编写代码。 if(groupResultMap.isEmpty)Map [String,Any]()else groupResultMap.mapPartitions(// do somthing //).collectAsMap在代码中,RDD将...

回答 1 投票 0

pyspark:时间表的rdd操作

我具有以下格式的文件格式:0,Alpha,-3.9、4、2001-02-01 08:00:00、5、20 0,Beta,-3.8、3、2001-02-01 08:15 :00,6,21 1,Gamma,-3.7,8,2001-02-01 08:30:00,7,22 0,Alpha,-3.5,4,2001-02-01 08:...

回答 1 投票 0

如何将csv转换为RDD并在pyspark中使用RDD进行某些检测?

我目前正在研究心脏病的检测,并希望使用Spark来处理大数据,因为这是我工作解决方案的一部分。但是我很难在python中使用spark ...

回答 1 投票 -3

RDD的Pyspark平均间隔

我正在尝试使用PySpark查找相邻元组列表之间的平均差。例如,如果我有一个RDD,例如vals = [(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),...

回答 1 投票 0

RDD操作对pyspark中的值进行排序

我的文件格式如下,0,Alpha,-3.9、4、2001-02-01、5、20 0,Beta,-3.8、3、2002-02-01、6、21 1,Gamma, -3.7,8,2003-02-01,7,22 0,Alpha,-3.5,4,2004-02-01,8,23 0,Alpha,-3.9,4,2005 -...

回答 1 投票 0

pyspark:仅基于rdd的操作

我正在尝试仅使用基于rdd的操作。我有一个与此类似的文件; 0,Alpha,-3.9,4,2001-02-01,5,20 0,Beta,-3.8,3,2002-02-01,6,21 1,Gamma,-3.7,8,2003-02-01 ,7,22 0,...

回答 1 投票 1

加入后火花对RDD中的值排序

我有两个配对的RDD,我使用相同的键将它们连接在一起,现在我想使用其中一个值对结果进行排序。新加入的RDD类型为:RDD [(((String,Int),Iterable [((String,...

回答 4 投票 1

是否有方法可以使用mapPartitions而不是distinct重写Spark RDD不同?

我的RDD太大,无法一贯执行不带虚假错误的独特语句(例如,SparkException阶段失败4次,ExecutorLostFailure,HDFS文件系统关闭,最大数量...

回答 2 投票 6

[将RDD转换为DataFrame时的java.lang.StackOverFlowError

[试图为大型RDD文档计算tf-idf分数,并且每当我尝试将其转换为数据帧时,它总是崩溃。我得到的初始错误是org.apache.spark.SparkException:作业...

回答 1 投票 0

createOrReplaceTempView不是org.apache.spark.rdd.RDD的成员

我正在使用hadoop 2.7.2,hbase 1.4.9,spark 2.2.0,scala 2.11.8和Java 1.8。我在没有任何错误的情况下运行了此命令:val Patterns_fromHbase = mimic_PatternsFromHbase.mapPartitions(f => f ....

回答 1 投票 0

为什么在调用库(rdd)时出现错误

我已经安装了rdd软件包,在调用library(rdd)时收到错误消息:错误:找不到'AER'所需的软件包'car'”我使用了car中的函数(例如anova),所以...

r rdd
回答 2 投票 -2

为什么在调用库(rdd)时出现错误

我安装了rdd软件包,在调用library(rdd)时收到错误消息“正在加载所需的软件包:AER错误:找不到'AER'所需的软件包'car'”我已经使用了car的功能(例如...] >

r rdd
回答 1 投票 -2

© www.soinside.com 2019 - 2024. All rights reserved.