rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

我有一个数据作为RDD [Map [A rray [String [String]，String]]]：（Map（Array [c1，a1]-> Y），Map（Array [a1]-> Y），Map（Array [c1 ，a1]-> N），Map [A rray [a1]-> N），Map [A rray [a1]-> Y））我想按键分组，...

scala apache-spark grouping rdd

回答 1 投票 0

Scala-将DataFrame的每一行都转换为Map，而无需rdd操作

如何将DataFrame的每一行收集到单独的Scala Map中，不希望使用rdd，因为必须在不使用collect（）方法的情况下对此Map Data做进一步的操作。输入：+ ------- + ---- + ----- + ----- + ------- + ----...

scala dataframe dictionary hashmap rdd

回答 1 投票 0

如何将RDD [org.apache.spark.sql.Row]转换为RDD [org.apache.spark.mllib.linalg.Vector]

我正在尝试将RDD [Row]转换为RDD [Vector]，但是它引发异常，指出java.lang.ClassCastException：org.apache.spark.ml.linalg.DenseVector无法转换为org.apache.spark.mllib。 linalg ....

scala apache-spark rdd

回答 1 投票 -1

Scala RDD有条件地调用过滤器函数

我具有读取RDD并生成数据帧的通用功能。我将调用此函数两次，一个带过滤器，另一个不带过滤器。有没有办法使我的功能更优雅？ def generateDF（...

scala apache-spark filter apache-spark-sql rdd

回答 1 投票 0

Spark RDD中的JSON聚合文件

我有一系列类似于以下文件：[{'id'：1，'transactions'：[{'date'：'2019-01-01'，'amount'：50.50}，{'date '：'2019-01-02'，'amount'：10.20}，...

json apache-spark pyspark rdd

回答 1 投票 -3

使用带有spark 2+ pyspark的.take（）函数的问题

这是我正在使用的代码。在这里，它无需data.take即可正常运行，但在pyspark.mllib.recommendation import ALS，MatrixFactorizationModel，Rating data = ...

python-3.x apache-spark pyspark jupyter-notebook rdd

回答 1 投票 0

案例类的瞬态字段在Spark rdd中为空

我有一个case类，它接受java类LinkedSparseMatrix（程序包-no.uib.cipr.matrix.sparse）的实例作为-case类A（mat：LinkedSparseMatrix）当我尝试转换列表时[...

java scala apache-spark rdd

回答 1 投票 -1

在Apache Spark中，我可以增量缓存RDD分区

我给人的印象是RDD的执行和缓存都是惰性的：也就是说，如果缓存了RDD，并且仅使用了一部分，则缓存机制将仅缓存该部分，而其他...

apache-spark rdd persistent-storage

回答 1 投票 0

如何正常终止Spark应用程序

我有一个在Spark集群中运行的进程（在Scala中），该进程处理一些数据，上传结果并更新处理状态。我希望上传和处理状态更新为原子...

scala apache-spark rdd yarn livy

回答 1 投票 0

Jupyter Notebook PySpark OSError [WinError 123]文件名，目录名称或卷标签语法不正确：

系统配置：操作系统：Windows 10 Python版本：3.7 Spark版本：2.4.4 SPARK_HOME：C：\ spark \ spark-2.4.4-bin-hadoop2.7问题我正在使用PySpark在..上进行并行计算。。

python pyspark anaconda rdd sklearn-pandas

回答 1 投票 3

我如何基于一个公共字段加入两个rdds？

我对scala还是接触rdds的新手。我有两个具有以下标头和数据的csv文件：csv1.txt：id，“位置”，“邮政编码” 1，“ a”，“ 12345” 2，“ b”，“ 67890” 3，“ c” ...

scala apache-spark rdd

回答 2 投票 1

RDD的持久性

请考虑以下代码。 val rdd1 = sc.textFile（“ ...”）。persist（）val rdd2 = rdd1.map（_。length）.persist（）val cnt = rdd2.count（）val rdd3 = rdd1.map（_。split （“”））。persist（）rdd2.count（）之后是...

apache-spark rdd

回答 1 投票 -1

Pyspark：容器退出，退出代码为非零143

我在这个问题上见过各种话题，但是给出的解决方案在我的情况下不起作用。该环境使用pyspark 2.1.0和Java 7并具有足够的内存和Cores。我正在火花-...

apache-spark pyspark rdd pyspark-dataframes spark-submit

回答 1 投票 0

通过RDD计算文本文件中每个国家的字数

我正在尝试通过RDD方法编写一个程序来计算文本文件中每个国家/地区的字数。样本数据：印度，它有15亿人口的印度，它在IT方面正处于繁荣发展之中。...

scala apache-spark rdd

回答 1 投票 -1

通过特定键对JSON RDD进行排序-Pyspark

我有一个如下所示的RDD，{“ attribute”：“ profile”，“ operation”：“ UPDATE”，“ params”：{“ member_uuid”：“ 027130fe-584d-4d8e-9fb0-b87c984a0c20”，“ member_id“：” cqhi6k5lby43pr3iethfmcp8sjq7_STG“，” easy_id“：...

python json apache-spark pyspark rdd

回答 1 投票 1

DataFrame定义是惰性计算

我是新手，可以学习它。有人可以帮忙解决以下问题吗？关于数据帧定义，spark明确引用了“通常，Spark仅在作业执行时才会失败，而是...

dataframe apache-spark pyspark rdd lazy-evaluation

回答 2 投票 0

将数据集转换为红色时，任务无法序列化的异常

我有如下所示的DataSet：dataset.show（10）|功能| + ----------- + | [14.378858] | | [14.388442] | | [14.384361] | | [14.386358] | | [14.390068] | | [14.423256] | | [14.425567] | | [14.434074] | | [...] >>

scala dataframe apache-spark rdd apache-spark-dataset

回答 1 投票 1

pyspark rdd以最小的年龄获得最大的频率

我的rdd如下：[{'age'：2.18430371791803，'code'：u'“ 315.320000”'，'id'：u'“ 00008RINR”'}，{'age'：2.80033330216659，'code '：u'“ 315.320000”'，'id'：u'“ 00008RINR”'}，{'age'：...

apache-spark pyspark count rdd reduce

回答 1 投票 0

将RDD保存为文本文件：ExitCodeException

我正在Windows上的PySpark上工作，遇到此错误时我停止了。这只是一个产生错误的小例子：testing = sc.parallelize（[1,2,3]）testing.saveAsTextFile（“ Desktop \ ...

python apache-spark pyspark rdd

回答 1 投票 0

Spark展平数据集映射的列

我有一个带有架构的RDD-架构：{“ type”：“ struct”，“ fields”：[{“ name”：“ cola”，“ type”：“ string”，“ nullable”：true，“元数据“：{}}，{” name“：” mappedcol“，...

java apache-spark rdd

回答 1 投票 0

rdd 相关问题

最新问题