rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

Spark-StorageLevel（DISK_ONLY与MEMORY_AND_DISK）和内存不足Java堆空间

最近，我一直在运行大量内存的Spark作业，并开始怀疑Spark的存储级别。我使用了StorageLevel.MEMORY_AND_DISK两次将其RDD之一保留下来。我正在得到...

scala apache-spark caching memory rdd

回答 1 投票 8

是否可以在pyspark中创建rdd的rdd？我尝试了rdd1 = sc.parallelize（[1,2,3]）rdd2 = sc.parallelize（[4,5,6]）rdd3 = sc.parallelize（[rdd1，rdd2]）并收到错误

python apache-spark pyspark rdd

回答 2 投票 0

在pyspaek中合并第二个rdd

我在pyspark中有两个rdd rdd1 = sc.parallelize（['a'，'b']）rdd2 = sc.parallelize（['c'，'d']）我想生成一个具有对的rdd每个rdd的一个元素。 [[a，c），（b，c），（a，d），（b，d）]我尝试过...

python apache-spark pyspark rdd

回答 1 投票 0

Spark数据帧/数据集在缓存时是否共享数据？

scala apache-spark dataset rdd

回答 1 投票 3

pyspark中基于rdd的操作中键值的最大值

我对基于rdd的操作不熟悉。我正在尝试了解键值的最大值。我有这样的rdd：RDD = sc.parallelize（[（“ A”，2，1），（“ C”，8，5），（“ B”，3，4），（“ A”，7 ，5），（“ C”，5，8），（“ C”，6，...

python-3.x pyspark bigdata rdd

回答 1 投票 0

具有分而治之的火花

我正在学习Spark，并尝试处理一些巨大的数据集。我不明白为什么看不到采用以下策略（伪）的阶段完成时间减少：data = sc.textFile（dataset）.cache（）...

apache-spark pyspark rdd

回答 1 投票 0

我如何在带有PySpark的RDD中找到每个唯一密钥的最短日期？

我有一个格式为[（ID，Date），（ID，Date）...]的元组列表，日期为datetime格式。作为RDD的示例，我正在使用：[['1'，datetime.date（2012，1，01）），（'2'，datetime.date（...

python-3.x apache-spark pyspark rdd

回答 1 投票 0

在Java Spark中尝试zipWithIndex时出错

我尝试使用zipWithIndex添加具有行号的列，如下所示：spark val df = sc.parallelize（Seq（（1.0，2.0），（0.0，-1.0），（3.0，4.0），（6.0，-2.3 ）））。toDF（“ x”，“ y”）val rddzip = df.rdd ....

java apache-spark rdd apache-spark-dataset

回答 1 投票 1

RDD操作，例如first（），head（），isEmpty（）..，它们会评估整个RDD吗？或只是其中的一部分？

我有一个RDD，groupResultMap，并在下面编写代码。 if（groupResultMap.isEmpty）Map [String，Any]（）else groupResultMap.mapPartitions（// do somthing //）.collectAsMap在代码中，RDD将...

scala apache-spark rdd lazy-evaluation

回答 1 投票 0

pyspark：时间表的rdd操作

我具有以下格式的文件格式：0，Alpha，-3.9、4、2001-02-01 08：00：00、5、20 0，Beta，-3.8、3、2001-02-01 08:15 ：00，6，21 1，Gamma，-3.7，8，2001-02-01 08:30:00，7，22 0，Alpha，-3.5，4，2001-02-01 08：...

python python-3.x pyspark bigdata rdd

回答 1 投票 0

如何将csv转换为RDD并在pyspark中使用RDD进行某些检测？

我目前正在研究心脏病的检测，并希望使用Spark来处理大数据，因为这是我工作解决方案的一部分。但是我很难在python中使用spark ...

apache-spark machine-learning pyspark rdd

回答 1 投票 -3

RDD的Pyspark平均间隔

我正在尝试使用PySpark查找相邻元组列表之间的平均差。例如，如果我有一个RDD，例如vals = [（2,110），（2,130），（2,120），（3,200），（3,206），（3,206），（4,150），（4,160），...

python apache-spark pyspark rdd moving-average

回答 1 投票 0

RDD操作对pyspark中的值进行排序

我的文件格式如下，0，Alpha，-3.9、4、2001-02-01、5、20 0，Beta，-3.8、3、2002-02-01、6、21 1，Gamma， -3.7，8，2003-02-01，7，22 0，Alpha，-3.5，4，2004-02-01，8，23 0，Alpha，-3.9，4，2005 -...

python python-3.x apache-spark pyspark rdd

回答 1 投票 0

pyspark：仅基于rdd的操作

我正在尝试仅使用基于rdd的操作。我有一个与此类似的文件； 0，Alpha，-3.9，4，2001-02-01，5，20 0，Beta，-3.8，3，2002-02-01，6，21 1，Gamma，-3.7，8，2003-02-01 ，7，22 0，...

python python-3.x pyspark bigdata rdd

回答 1 投票 1

加入后火花对RDD中的值排序

我有两个配对的RDD，我使用相同的键将它们连接在一起，现在我想使用其中一个值对结果进行排序。新加入的RDD类型为：RDD [（（（String，Int），Iterable [（（String，...

scala apache-spark rdd

回答 4 投票 1

是否有方法可以使用mapPartitions而不是distinct重写Spark RDD不同？

我的RDD太大，无法一贯执行不带虚假错误的独特语句（例如，SparkException阶段失败4次，ExecutorLostFailure，HDFS文件系统关闭，最大数量...

scala apache-spark distinct shuffle rdd

回答 2 投票 6

[将RDD转换为DataFrame时的java.lang.StackOverFlowError

[试图为大型RDD文档计算tf-idf分数，并且每当我尝试将其转换为数据帧时，它总是崩溃。我得到的初始错误是org.apache.spark.SparkException：作业...

python dataframe rdd pyspark-sql

回答 1 投票 0

createOrReplaceTempView不是org.apache.spark.rdd.RDD的成员

我正在使用hadoop 2.7.2，hbase 1.4.9，spark 2.2.0，scala 2.11.8和Java 1.8。我在没有任何错误的情况下运行了此命令：val Patterns_fromHbase = mimic_PatternsFromHbase.mapPartitions（f => f ....

scala dataframe apache-spark hbase rdd

回答 1 投票 0

为什么在调用库（rdd）时出现错误

我已经安装了rdd软件包，在调用library（rdd）时收到错误消息：错误：找不到'AER'所需的软件包'car'”我使用了car中的函数（例如anova），所以...

r rdd

回答 2 投票 -2

为什么在调用库（rdd）时出现错误

我安装了rdd软件包，在调用library（rdd）时收到错误消息“正在加载所需的软件包：AER错误：找不到'AER'所需的软件包'car'”我已经使用了car的功能（例如...] >

r rdd

回答 1 投票 -2

rdd 相关问题

最新问题