rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

如何根据值将RDD分为不同的RDD,并将每个部分赋予函数

我有一个RDD,其中每个元素都是一个case类,例如:case class Element(target:Boolean,data:String)现在,我需要根据String数据是什么来分割RDD(它是一个离散值。) ..

回答 1 投票 0

Spark Scala [for if-else嵌入的循环]我如何不能接收重复数组

我正在尝试计算数组RDD级别中的某些单词。它几乎完成了一半。但是,结果显示出与我要查找的结果不完全相同。我正在处理类似...

回答 1 投票 0

如何将Spark RDD / DataFrame用于循环问题

我有一个名为问题的txt文件,该文件有7000行。每行是一个字符串句子。例如,“您好,我可以要求美国运通金卡新会员优惠吗?”我想检查...

回答 1 投票 -1

如何从csv文件中的spark中的id对值求和

def parse(a:String):Double = {if(a!= null && a.length> 0 &&!a.equals(“ PostGA”)){a.toDouble} else {0}} ...] >

回答 1 投票 -1

加入两个流水线RDD

我正在尝试在pyspart jupyter笔记本中使用.join()连接两个流水线的RDD:第一个RDD:primaryType.take(5)[“欺骗性实践”,“犯罪性攻击”,“盗窃”,“盗窃”,“犯罪性” ...

回答 1 投票 0

将唯一键值分配给每个流水线RDD中的元素

我有一个管道RDD:districts.take(5)['004','022','008','003','001']我希望每个元素都具有一个唯一的键,例如:[(1,' 004'),(2,'022')等...]我该怎么做?

回答 1 投票 0

为grep -i shell命令抛出rdd.pipe抛出java.lang.IllegalStateException吗?

[我正在运行在RDD Spark操作中使用管道的代码:我尝试过以下代码段:// PIPE-在spark val中运行外部外壳脚本val x = sc.parallelize(Array(“ A”,“ Ba”,“ C“,” AD“))val y ...

回答 1 投票 0

EffectservesPartitioning RDD true / false为mapPartitions提供相同的结果

请阅读以下版本,但是是由最近的SO问题触发的。当然,RDD本身是旧的,但仍然很奇怪。 reservesPartitioning指示输入函数是否保留...

回答 1 投票 -1

Spark中分组的PairRDD中的最佳分区数

我有两对RDD,其结构为RDD [String,Int],分别称为rdd1和rdd2。这些RDD中的每一个都按其键分组,我想对其值执行一个函数(所以我将使用mapValues ...

回答 1 投票 0

使用基于'A','E','I','O','U'元音的scala在Spark(使用RDD的Core)WordCount程序中创建5分区文件

使用基于“ A”,“ E”,“ I”,“ O”,“ U”的元音的scala在Spark(使用RDD的Core)WordCount程序中创建5分区文件,即5个文件,每个文件包含每个元音和计数。例如,如果...

回答 1 投票 1

通过RDD获取路径读取中的文件数

我正在读取RDD中的路径。我知道在Java中有几种方法可以读取一个文件夹中的文件数量。但是有没有办法获取该文件中存在的文件数。

回答 1 投票 -3

pyspark:获取列表值的不同元素

我有这种形式的rdd,rdd = sc.parallelize([('A',[1,2,4,1,1,2,5]),('B',[2,3,2,1 ,5,10]),('C',[3,2,5,10,5,2])]))但我想将rdd转换如下,newrdd = [('A',[...

回答 4 投票 0

如何将中间结果存储在pyspark reduceByKey函数中?

这是计算平均持有成本的情况。我们只考虑增加帐户余额的交易,而不考虑减少帐户余额的交易。 #数据示例:((1,'...

回答 1 投票 0

如何使用pyspark流计算csv文件中的条目数

我有一个监视器目录,其中包含.csv文件的数量。我需要计算即将到来的.csv文件中每个条目的数量。我想在pyspark流上下文中执行此操作。这就是我所做的,...

回答 1 投票 0

如何将具有不同长度的多个RDD合并为具有特定顺序模式的单个RDD?

我有几个不同长度的RDD:RDD1:[a,b,c,d,e,f,g] RDD2:[1、3、2、44、5] RDD3:[D,F,G] I想要将它们组合成一个具有顺序模式的RDD:每5行:需要2 ...

回答 1 投票 -2

在单个RDD中加入两个字符串以在pyspark中形成新的RDD

我有一个rdd&apply集合后,如下所示; rdd = [('Amazon','2016/01/09','17:06:24','17:10:03'),('Amazon','2016/02/09','17:06 :55','17:10:00'),('Amazon','2016/02/09','17:10:...

回答 1 投票 0

使用Java将spark RDD保存到本地文件系统中

我有一个使用Spark生成的RDD。现在,如果我将此RDD写入一个csv文件,则可以使用“ saveAsTextFile()”之类的一些方法,该方法将一个csv文件输出到HDFS。我想写...

回答 1 投票 5

如果通过spark读取json时需要进行模式验证,则需要在模式中显式添加“ _corrupt_record”列

[当我通过spark(使用scala)读取JSON时,val rdd = spark.sqlContext.read.json(“ / Users / sanyam / Downloads / data / input.json”)val df = rdd.toDF()df.show( )println(df.schema)// val模式= df ....

回答 1 投票 1

在两个Rdd上使用并集后无法将Pyspark作业结果保存到单个文本文件中

我有一个文本作为数据源文件,没有标题行,我对rdd进行了一些转换。之后,我使用parallelize创建了一个标题rdd,并与两个rdd进行了并集。我保存...

回答 1 投票 -1

Pyspark RDD不同地汇总不同的值字段

这是一个开放式的问题,但是我有这种格式的RDD。 [('2014-06',('131313',5.5,6.5,7.5,10.5)),('2014-07',('246655',636636.53,.53252,5252.112,5242.23)),('2014- 06',('...

回答 2 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.