rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

在pyspark中乘以两个RDD

我是pyspark的新手。我一直在尝试将两个稀疏RDD相乘。我尝试过的代码生成两个稀疏矩阵,并且我编写了一个将两个RDD相乘的函数,但是我认为这是...

回答 1 投票 0

动态组并通过Spark数据框/数据集进行计数

用例是按给定数据集中的每一列进行分组,并获取该列的计数。结果集是(键,值)映射,然后最终是所有映射。例如,学生= {(年龄,...

回答 2 投票 0

如何在RDD中将字符串元素转换为数字1

我想转换以下RDD数据中的字符串元素0 = sc.parallelize([('0','2.023'),('0.2','4.235'),('1.23','0.45'), ('1.23','10 .2'),('1.0','20 .0')])为数值。...

回答 1 投票 0

如何在Spark Java中创建复杂的StructType架构

[如何在Spark Java sam | mars | 1234567 |中使用StructType为以下数据定义数据类型:“报告”:{“详细信息”:[{“主题”:“科学”,“等级”:“ A”, “备注”:“良好”},{“主题”:“数学”,“等级”:“ ...

回答 1 投票 0

spark(with scala)中reduceByKey的意外行为?在spark或scala中是“ rev”保留字吗?

我有一个带有一些记录的文件。 1,1,957,1,299.98,299.98 2,2,1073,1,199.99,199.99 3,2,502,5,250.0,50.0 4,2,403,1,129.99,129.99 5,4,897,2,49.98,24.99 6,4,365,5,299.95,59.99 7,4,502, 3,150.0,50.0 8,4,...

回答 1 投票 0

为什么在一个阶段之后从文件中读取Spark这么快?

Spark在随机播放后将其结果具体化在磁盘上。在进行实验时,我看到Spark的一个任务在1毫秒内读取了65MB的物化数据(有些任务甚至显示在0ms内读取该数据:)...

回答 1 投票 0

Python列表清单// Pyspark

输入:[['A','V1'],['A','V2'],['B','V6'],['B','V7']]我如何获得上面的输入的下面的输出预期的输出:listA = ['V1','V2'],listB = ['V6','V7']附加信息:...

回答 1 投票 0

如何过滤日期列,并使用Scala将其作为数字存储在数据框中

我有一个数据框(dates1),如下所示,+ ----------- + ----------- + ----------- -------- + ------------------- + |出生日期|加入日期|合同日期|发布日期| + ----------- + --...

回答 1 投票 0

获取pyspark中的分区数

我从表中选择所有内容,然后使用Pyspark在其中创建一个数据框(df)。现在被划分为:partitionBy('date','t','s','p')现在我想通过使用...

回答 2 投票 0

使用pyspark计算所有可能的单词对

我有一个文本文件。我需要在整个文档中找到重复单词对的可能计数。例如,我有下面的word文档。该文档有两行,每行分开...

回答 1 投票 1

在Spark中创建分布式RDD

我知道要创建一个RDD,我们有两种方法:使驱动程序中的现有集合并行化。从诸如HDFS,HBase等外部存储系统中引用数据。但是,我会...

回答 1 投票 1

为Spark RDD中的每个分区基于复合键获取最高值

我想使用以下rdd rdd = sc.parallelize([(“ K1”,“ e”,9),(“ K1”,“ aaa”,9),(“ K1”,“ ccc”,3 ),(“ K1”,“ ddd”,9),(“ B1”,“ qwe”,4),(“ B1”,“ rty”,7),(“ B1”,“ iop”,8), (“ B1”,“ zxc”,1)])...

回答 1 投票 0

在什么情况下会跳过DAG的阶段?

我正在尝试查找在我使用RDD的情况下Spark会跳过阶段的情况。我知道,如果发生洗牌操作,它将跳过阶段。所以,我写了以下代码...

回答 1 投票 1

从火花中的每个分区中选择N个元素

假设我有RDD。我将RDD的分区数设置为5。我想从每个分区中选择10个元素,并希望将它们存储在一个名为var1的变量中,稍后我要广播...

回答 1 投票 0

具有精确词匹配搜索的RDD过滤器

我有一个rdd对象(从文本文件创建),我正在通过使用完全匹配的单词进行过滤来创建另一个rdd对象。 rdd2 = rdd1.filter(lambda x:x中的单词)word是在for中生成的字符串...

回答 1 投票 0

我需要计算pyspark电影的平均收视率

我有一组电影数据/评分,我需要按电影计算评分的平均值。这就像是SQL中的分级groupby movieId的总和。非常感谢您为我尝试提供的帮助...

回答 1 投票 0

KeyError:''空字符串错误Pyspark(Spark RDD)

我正在做一个简单的练习,根据一个共同朋友边缘列表图形推荐新朋友,并在某些过滤条件下计算每个特定用户的前20个共同朋友。我是...

回答 1 投票 0

如何将火花rdd的副本存储到另一个rdd

[我有两个火花rdd:RDD1:RDD [(String,String,Int)]和RDD2:RDD [(String,String,Int)] RDD1是原始数据,而RDD2与RDD1不同,我需要创建一个RDD3是...的RDD1-RDD2。

回答 1 投票 0

java.lang.StringIndexOutOfBoundsException:字符串索引超出范围:-650599791

此处错误:org.apache.spark.SparkException:由于阶段失败而导致作业中止:阶段132.0中的任务0失败了4次,最近的失败:阶段132.0中的任务0.3丢失:java.lang ....

回答 1 投票 1

如何将spark rdd用管道传输到python并从python返回rdd

这是我在scala文件中的代码val data = List(“ cdn.resized-images.covethome.com”)val dataRDD = sc.makeRDD(data)val scriptPath =“ / Users / hareshbhuriya / Documents / final-python-集成/ ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.