rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

在Scala火花中使用两个不同的RDD

我有:RDD1,其中我想将点对的尺寸(0,List(5,7))比较为(2,5),(3,7),...和RDD2,(1 ,List(2,4)),...如何计算第二个尺寸...

回答 1 投票 0

在Spark中将数据帧转换为rdd的成本

我正在尝试使用以下方法来获取数据帧的分区数:df.rdd.getNumPartitions.toString但是,当我监视火花日志时,我看到它旋转了很多阶段,并且对于...来说是一项昂贵的操作。 >

回答 1 投票 0

如何从Pyspark的MapType列中获取键和值

我正在尝试在PySpark中复制此问题的解决方案(Spark <2.3,因此没有map_keys):如何从SparkSQL DataFrame中的MapType列获取键和值下面是我的代码(相同的df ...) >

回答 1 投票 0

Spark Parallelized Collectios

我对Spark非常陌生,我无法运行并行化集合,这是我的代码:从pyspark导入SparkContext作为sc字= ['Apache','Spark','is','an','open -source','cluster-computing',...

回答 1 投票 0

如何在rddtools rdd_reg_lm函数中使用协变量?

我正在尝试使用rddtools R软件包运行参数RD回归。但是,包装文件对我来说不是很清楚。首先:定义RD对象的函数是:rdd_data(y,x,...

回答 1 投票 0

如何在RDD PYSPARK中计算每个特定行的总销售价格

[我有一个数据集,例如:1 |黄金棒薰衣草春天巧克力花边|制造商#1 |品牌#13 |促销磨光铜| 7 |巨型包装| 901.00 | ly。狡猾的讽刺| 2 |腮红蓝色黄色马鞍| ...

回答 1 投票 0

Spark Scala-如何将一行中的某些元素与另一行中的另一元素进行比较

例如,我具有RDD [Int,(String,String),(String,String)]的RDD,例如:(1,(UserID1,pwd1),(UserID2,pwd2))(2,(UserID2,pwd2) ,((UserID3,pwd3))(3,(UserID3,pwd3),(UserID4,pwd4))当您...

回答 1 投票 0

通过gcloud dataproc读取张量文件

你好,我应该如何修改我的代码以正确读取dataset2? %% writefile read_rdd.py def read_RDD(argv):解析器= argparse.ArgumentParser()#获取解析器对象parser.add_argument('--...

回答 1 投票 0

!gcloud dataproc作业提交pyspark-错误AttributeError:'str'对象没有属性'batch'

我如何输入数据集类型作为dataproc作业的输入?地雷代码低于%% writefile spark_job.py导入sys导入pyspark导入argparse导入泡菜#def time_configs_rdd(test_set,...

回答 1 投票 1

为什么在reduceByKey之后所有数据最终都集中在一个分区中?

我有这个简单的spark程序。我想知道为什么所有数据最终都集中在一个分区中。 val l = List((30002,30000),(50006,50000),(80006,80000),(4,0),(60012,60000),(70006,70000),...

回答 2 投票 5

如何通过从现有RDD中选择特定数据来创建RDD,RDD [String]的输出应在其中进行?

我有一个场景来从现有的RDD捕获一些数据(不是全部),然后将其传递给其他Scala类以进行实际操作。让我们看一下示例数据(empnum,empname,emplocation,empsal)在...

回答 1 投票 0

Spark-shell中的RDD输出与想法中的print(RDD)不同

val rddData1 = sc.makeRDD(1到10,2)println(rddData1.glom.collect)代码在思想或spark-shell中将输出[[I @ 34a0ef00,但是spark-shell中的rddData1.glom.collect将输出Array [Array [Int]] = ...

回答 2 投票 0

Spark set executor的类加载器

我有一些RDD [String],我需要对此RDD执行一些过滤。我也有公共类MyCustomClassLoader扩展了ClassLoader {},因此它看起来类似于以下内容:val rdd:...

回答 1 投票 2

Spark:由S3 aws-sdk读取或作为RDD

我在S3中的5KB配置文件下只有几(5-10)个。可以使用AWS S3或RDD读取这些文件。因此,如果有10个文件,则会创建10个RDD对象,并使用collect()将其变成... ...>

回答 1 投票 0

Spark RDD:AggregateByKey引发任务无法序列化,并且我看不到不可序列化的对象

我有这样的代码:对象助手{val getPercentVariationInterval =(prevStartClose:Double,prevEndClose:...

回答 1 投票 0

无法使用收集RDD

[请问有人知道这行代码有什么错误吗?花费数小时进行搜索,但未成功解决。预先感谢您,标签= RDD.map(lambda(a,b):a).collect()语法...

回答 1 投票 0

将scd中的RDD [Array [(String,String)]]类型转换为RDD [(String,String)]

我是Scala的新手,并尝试了多种方法将RDD [Array [(String,String)]]类型转换为RDD [(String,String)]。我要实现的是从Json中选择两个元素(文本和类别)。对于...

回答 1 投票 -1

如何避免在Scala的Spark RDD中使用collect?

我有一个列表,必须从中创建Map以便进一步使用,我正在使用RDD,但是使用collect()时,群集中的作业失败。任何帮助表示赞赏。请帮忙。下面是示例代码...

回答 1 投票 0

在pyspark中精确使用to toDebugstring()

是pyspark的新蜜蜂,并试图了解toDebugstring()的确切用法。请您从下面的代码片段中进行解释? >>> a = sc.parallelize([1,2,3])。distinct()>>> ...

回答 1 投票 1

如何在Apache Spark中将RDD [ParentClass]与RDD [Subclass]进行匹配?

我必须将rdd与它的类型匹配。特质水果盒类Apple(price:Int)扩展了水果盒类Mango(price:Int)扩展了水果现在,类型为DStream [Fruit]的dstream即将到来。它是...

回答 1 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.