rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

Spark如何使用哈希分区程序分发数据?

要了解Spark分区的工作原理,我在spark 1.6上有以下代码// RDD [(String,Int)]的分区计数大小def countByPartition1(rdd:RDD [(String,Int)])= { ...

回答 2 投票 0

筛选RDD中的空分区

是否有办法在RDD中过滤空分区?分区后我有一些空分区,不能在操作方法中使用它们。我在Scala中使用Apache Spark

回答 3 投票 1

Spack [Scala]:通过键减少嵌套的元组值

假设我有一个Spark Scala程序,其RDD名为say_rdd,其内容如下:(name,(filename,sum))...(Maria,(file0,3))(John,(file0,1)) (Maria,(文件1,6))(Maria,(文件2,1))(...

回答 1 投票 0

如何使用输入字符串进行计数?

嗨,我正在尝试使用输入字符串来计算给定问题中的最大值。问题描述:给定两个月x和y,其中y> x,找到增加了推文数量的主题标签名称...

回答 1 投票 -1

Spark执行程序看不到隐式值(java.lang.NullPointerException)

我有一个无法在Yarn上启动的spark应用程序。我收到空指针异常。 (在主本地应用程序上工作正常)。我的应用程序正在将嵌套的XML转换为JSON。我是...

回答 1 投票 0

Spark数据帧在另存为文本文件时被附加方括号

我正在尝试在追加模式下将数据帧保存在hadoop中。下面是命令:df.repartition(5).map((row)=> row.toString())。write.mode(SaveMode.Append).text(op_dir)问题是...

回答 2 投票 0

Apache Spark在完全分布式模式下对执行程序执行操作

我是新手,我对转换和行动的工作原理有基本的了解(指南)。我正在文本文件的每行(基本上是段落)上尝试一些NLP操作。处理后,...

回答 2 投票 1

使用Spark RDD保存和加载WholeTextFiles

我需要在spark中对某些文本文件执行批处理。基本上,有人给了我大量变形的csv文件。它们包含多行标题数据,这些行是任意文本格式,...

回答 1 投票 0

在RDD中添加新列

ErrorHi,我正在尝试将一个新列添加到Spark RDD。我正在尝试在一个数据集中尝试添加发行商在所有游戏中所占比例。数据集如下所示:Name,...

回答 2 投票 0

在RDD中添加列

我正在尝试添加多列(整数值)以根据全球销售额找到最高和最低的销售类型。表格格式:名称,平台,年份,类型,发布者,NA_Sales,...

回答 1 投票 0

Apache Spark:Java RDD中特定字段的记录数

我想根据对象中的字段来计算Java RDD中不同类型的记录。我有一个实体类,其名称和状态为该类的成员变量。实体类看起来像...

回答 1 投票 0

检查值是否为另一对pyspark的键

我想这个问题的答案可能太明显了。但是我想知道如何获取在我的RDD中任何对都不存在的值列表,例如对= [(3,2),(1,3),(1,4)] ...

回答 1 投票 0

具有Pyspark的Pytesseract引发错误:-找不到pytesseract模块

我正在尝试使用spark和pytesseract编写OCR代码,即使安装了pytesseract模块,我也遇到了pytesseract模块找不到错误。从PIL导入pytesseract ...

回答 1 投票 0

从Spark Streaming获取异常

package com.scala.sparkStreaming import org.apache.spark._ import org.apache.spark.streaming._ object Demo1 {def main(assdf:Array [String]){val sc = new SparkContext(“ local”, “ Stream”)val ...

回答 1 投票 0

基于pyspark中的值的rdd组

我创建了rdd并使用以下命令打印结果:finalRDD = replacetimestampRDD.map(lambda x:(x [1],x [0:]))print(“分区结构:{}”。format(finalRDD.glom ().collect()))输出(示例):...

回答 1 投票 0

替换pyspark中rdd的特定元素

我想替换每个rdd列表的第一个元素。首先,我使用以下命令将rdd字符串转换为rdd列表:ff = rdd.map(lambda x:x.split(“,”))simpleRDD = ff.map(lambda x:x)print(“分区结构:...

回答 1 投票 0

没有数据集到rdd的转换怎么办?

有人可以帮我避免rdd转换吗? val qksDistribution:Array [(((String,Int),Long)] = tripDataset .map(i =>(((i.getFirstPoint.getQk.substring(0,QK_PARTITION_LEVEL),i ....

回答 1 投票 0

Pyspark RDD标准偏差的意外更改

我遵循Raju Kumar的PySpark配方,在配方4-5上,我发现当您执行rdd.stats()和rdd.stats()。asDict()时,会得到不同的标准偏差值。在...

回答 1 投票 0

何时应该在Spark中使用RDD代替Dataset? [重复]

[我知道我应该首先使用Spark数据集,但是我想知道是否有好的情况下应该使用RDD代替数据集?

回答 1 投票 0

Pyspark:将多个文件加载到RDD中,但保留文件名

我有一些csv文件,其格式如下:JO.csv KE.csv NZ.csv CO.csv MY.csv IN.csv PL.csv NO.csv ZA.csv DK.csv IL.csv CN.csv BE .csv AR.csv IT.csv JP.csv我正在尝试加载所有这些...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.