rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

如何按和计数RDD [Map [A rray [Int],Int]]

我有一个数据作为RDD [Map [A rray [String [String],String]]]:(Map(Array [c1,a1]-> Y),Map(Array [a1]-> Y),Map(Array [c1 ,a1]-> N),Map [A rray [a1]-> N),Map [A rray [a1]-> Y))我想按键分组,...

回答 1 投票 0

Scala-将DataFrame的每一行都转换为Map,而无需rdd操作

如何将DataFrame的每一行收集到单独的Scala Map中,不希望使用rdd,因为必须在不使用collect()方法的情况下对此Map Data做进一步的操作。输入:+ ------- + ---- + ----- + ----- + ------- + ----...

回答 1 投票 0

如何将RDD [org.apache.spark.sql.Row]转换为RDD [org.apache.spark.mllib.linalg.Vector]

我正在尝试将RDD [Row]转换为RDD [Vector],但是它引发异常,指出java.lang.ClassCastException:org.apache.spark.ml.linalg.DenseVector无法转换为org.apache.spark.mllib。 linalg ....

回答 1 投票 -1

Scala RDD有条件地调用过滤器函数

我具有读取RDD并生成数据帧的通用功能。我将调用此函数两次,一个带过滤器,另一个不带过滤器。有没有办法使我的功能更优雅? def generateDF(...

回答 1 投票 0

Spark RDD中的JSON聚合文件

我有一系列类似于以下文件:[{'id':1,'transactions':[{'date':'2019-01-01','amount':50.50},{'date ':'2019-01-02','amount':10.20},...

回答 1 投票 -3

使用带有spark 2+ pyspark的.take()函数的问题

这是我正在使用的代码。在这里,它无需data.take即可正常运行,但在pyspark.mllib.recommendation import ALS,MatrixFactorizationModel,Rating data = ...

回答 1 投票 0

案例类的瞬态字段在Spark rdd中为空

我有一个case类,它接受java类LinkedSparseMatrix(程序包-no.uib.cipr.matrix.sparse)的实例作为-case类A(mat:LinkedSparseMatrix)当我尝试转换列表时[...

回答 1 投票 -1

在Apache Spark中,我可以增量缓存RDD分区

我给人的印象是RDD的执行和缓存都是惰性的:也就是说,如果缓存了RDD,并且仅使用了一部分,则缓存机制将仅缓存该部分,而其他...

回答 1 投票 0

如何正常终止Spark应用程序

我有一个在Spark集群中运行的进程(在Scala中),该进程处理一些数据,上传结果并更新处理状态。我希望上传和处理状态更新为原子...

回答 1 投票 0

Jupyter Notebook PySpark OSError [WinError 123]文件名,目录名称或卷标签语法不正确:

系统配置:操作系统:Windows 10 Python版本:3.7 Spark版本:2.4.4 SPARK_HOME:C:\ spark \ spark-2.4.4-bin-hadoop2.7问题我正在使用PySpark在..上进行并行计算。 。

回答 1 投票 3

我如何基于一个公共字段加入两个rdds?

我对scala还是接触rdds的新手。我有两个具有以下标头和数据的csv文件:csv1.txt:id,“位置”,“邮政编码” 1,“ a”,“ 12345” 2,“ b”,“ 67890” 3,“ c” ...

回答 2 投票 1

RDD的持久性

请考虑以下代码。 val rdd1 = sc.textFile(“ ...”)。persist()val rdd2 = rdd1.map(_。length).persist()val cnt = rdd2.count()val rdd3 = rdd1.map(_。split (“”))。persist()rdd2.count()之后是...

回答 1 投票 -1

Pyspark:容器退出,退出代码为非零143

我在这个问题上见过各种话题,但是给出的解决方案在我的情况下不起作用。该环境使用pyspark 2.1.0和Java 7并具有足够的内存和Cores。我正在火花-...

回答 1 投票 0

通过RDD计算文本文件中每个国家的字数

我正在尝试通过RDD方法编写一个程序来计算文本文件中每个国家/地区的字数。样本数据:印度,它有15亿人口的印度,它在IT方面正处于繁荣发展之中。...

回答 1 投票 -1

通过特定键对JSON RDD进行排序-Pyspark

我有一个如下所示的RDD,{“ attribute”:“ profile”,“ operation”:“ UPDATE”,“ params”:{“ member_uuid”:“ 027130fe-584d-4d8e-9fb0-b87c984a0c20”,“ member_id“:” cqhi6k5lby43pr3iethfmcp8sjq7_STG“,” easy_id“:...

回答 1 投票 1

DataFrame定义是惰性计算

我是新手,可以学习它。有人可以帮忙解决以下问题吗?关于数据帧定义,spark明确引用了“通常,Spark仅在作业执行时才会失败,而是...

回答 2 投票 0

将数据集转换为红色时,任务无法序列化的异常

我有如下所示的DataSet:dataset.show(10)|功能| + ----------- + | [14.378858] | | [14.388442] | | [14.384361] | | [14.386358] | | [14.390068] | | [14.423256] | | [14.425567] | | [14.434074] | | [...] >>

回答 1 投票 1

pyspark rdd以最小的年龄获得最大的频率

我的rdd如下:[{'age':2.18430371791803,'code':u'“ 315.320000”','id':u'“ 00008RINR”'},{'age':2.80033330216659,'code ':u'“ 315.320000”','id':u'“ 00008RINR”'},{'age':...

回答 1 投票 0

将RDD保存为文本文件:ExitCodeException

我正在Windows上的PySpark上工作,遇到此错误时我停止了。这只是一个产生错误的小例子:testing = sc.parallelize([1,2,3])testing.saveAsTextFile(“ Desktop \ ...

回答 1 投票 0

Spark展平数据集映射的列

我有一个带有架构的RDD-架构:{“ type”:“ struct”,“ fields”:[{“ name”:“ cola”,“ type”:“ string”,“ nullable”:true,“元数据“:{}},{” name“:” mappedcol“,...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.