rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

Spark如何使用哈希分区程序分发数据？

要了解Spark分区的工作原理，我在spark 1.6上有以下代码// RDD [（String，Int）]的分区计数大小def countByPartition1（rdd：RDD [（String，Int）]）= { ...

apache-spark hash rdd partition

回答 2 投票 0

筛选RDD中的空分区

是否有办法在RDD中过滤空分区？分区后我有一些空分区，不能在操作方法中使用它们。我在Scala中使用Apache Spark

scala apache-spark filtering rdd partition

回答 3 投票 1

Spack [Scala]：通过键减少嵌套的元组值

假设我有一个Spark Scala程序，其RDD名为say_rdd，其内容如下：（name，（filename，sum））...（Maria，（file0，3））（John，（file0，1））（Maria，（文件1，6））（Maria，（文件2，1））（...

scala apache-spark mapreduce rdd reduce

回答 1 投票 0

如何使用输入字符串进行计数？

嗨，我正在尝试使用输入字符串来计算给定问题中的最大值。问题描述：给定两个月x和y，其中y> x，找到增加了推文数量的主题标签名称...

scala apache-spark rdd

回答 1 投票 -1

Spark执行程序看不到隐式值（java.lang.NullPointerException）

我有一个无法在Yarn上启动的spark应用程序。我收到空指针异常。（在主本地应用程序上工作正常）。我的应用程序正在将嵌套的XML转换为JSON。我是...

scala apache-spark rdd yarn implicit

回答 1 投票 0

Spark数据帧在另存为文本文件时被附加方括号

我正在尝试在追加模式下将数据帧保存在hadoop中。下面是命令：df.repartition（5）.map（（row）=> row.toString（））。write.mode（SaveMode.Append）.text（op_dir）问题是...

scala dataframe apache-spark apache-spark-sql rdd

回答 2 投票 0

Apache Spark在完全分布式模式下对执行程序执行操作

我是新手，我对转换和行动的工作原理有基本的了解（指南）。我正在文本文件的每行（基本上是段落）上尝试一些NLP操作。处理后，...

java apache-spark action rdd transformation

回答 2 投票 1

使用Spark RDD保存和加载WholeTextFiles

我需要在spark中对某些文本文件执行批处理。基本上，有人给了我大量变形的csv文件。它们包含多行标题数据，这些行是任意文本格式，...

apache-spark pyspark rdd

回答 1 投票 0

在RDD中添加新列

ErrorHi，我正在尝试将一个新列添加到Spark RDD。我正在尝试在一个数据集中尝试添加发行商在所有游戏中所占比例。数据集如下所示：Name，...

scala apache-spark-sql rdd

回答 2 投票 0

在RDD中添加列

我正在尝试添加多列（整数值）以根据全球销售额找到最高和最低的销售类型。表格格式：名称，平台，年份，类型，发布者，NA_Sales，...

scala apache-spark apache-spark-sql rdd

回答 1 投票 0

Apache Spark：Java RDD中特定字段的记录数

我想根据对象中的字段来计算Java RDD中不同类型的记录。我有一个实体类，其名称和状态为该类的成员变量。实体类看起来像...

java apache-spark rdd

回答 1 投票 0

检查值是否为另一对pyspark的键

我想这个问题的答案可能太明显了。但是我想知道如何获取在我的RDD中任何对都不存在的值列表，例如对= [（3,2），（1,3），（1,4）] ...

python pyspark rdd

回答 1 投票 0

具有Pyspark的Pytesseract引发错误：-找不到pytesseract模块

我正在尝试使用spark和pytesseract编写OCR代码，即使安装了pytesseract模块，我也遇到了pytesseract模块找不到错误。从PIL导入pytesseract ...

pyspark ocr rdd tesseract python-tesseract

回答 1 投票 0

从Spark Streaming获取异常

package com.scala.sparkStreaming import org.apache.spark._ import org.apache.spark.streaming._ object Demo1 {def main（assdf：Array [String]）{val sc = new SparkContext（“ local”， “ Stream”）val ...

apache-spark spark-streaming rdd apache-kafka-streams spark-structured-streaming

回答 1 投票 0

基于pyspark中的值的rdd组

我创建了rdd并使用以下命令打印结果：finalRDD = replacetimestampRDD.map（lambda x：（x [1]，x [0：]））print（“分区结构：{}”。format（finalRDD.glom （）.collect（）））输出（示例）：...

apache-spark pyspark rdd

回答 1 投票 0

替换pyspark中rdd的特定元素

我想替换每个rdd列表的第一个元素。首先，我使用以下命令将rdd字符串转换为rdd列表：ff = rdd.map（lambda x：x.split（“，”））simpleRDD = ff.map（lambda x：x）print（“分区结构：...

apache-spark pyspark rdd

回答 1 投票 0

没有数据集到rdd的转换怎么办？

有人可以帮我避免rdd转换吗？ val qksDistribution：Array [（（（String，Int），Long）] = tripDataset .map（i =>（（（i.getFirstPoint.getQk.substring（0，QK_PARTITION_LEVEL），i ....

scala apache-spark dataset rdd

回答 1 投票 0

Pyspark RDD标准偏差的意外更改

我遵循Raju Kumar的PySpark配方，在配方4-5上，我发现当您执行rdd.stats（）和rdd.stats（）。asDict（）时，会得到不同的标准偏差值。在...

apache-spark pyspark rdd

回答 1 投票 0

何时应该在Spark中使用RDD代替Dataset？ [重复]

[我知道我应该首先使用Spark数据集，但是我想知道是否有好的情况下应该使用RDD代替数据集？

apache-spark dataset rdd

回答 1 投票 0

Pyspark：将多个文件加载到RDD中，但保留文件名

我有一些csv文件，其格式如下：JO.csv KE.csv NZ.csv CO.csv MY.csv IN.csv PL.csv NO.csv ZA.csv DK.csv IL.csv CN.csv BE .csv AR.csv IT.csv JP.csv我正在尝试加载所有这些...

apache-spark pyspark rdd

回答 1 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.