rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

将 pyspark 列转换为 python 列表的最快方法是什么？

我有一个大的 pyspark 数据框，但使用如下所示的小数据框来测试性能。我知道将 pyspark 列转换为列表的三种方法，但没有一种方法与 s...

python list apache-spark pyspark rdd

回答 2 投票 0

如何获取/构建 JavaRDD[DataSet]？

当我使用 deeplearning4j 并尝试在 Spark 中训练模型时公共多层网络拟合（JavaRDD 训练数据） fit() 需要一个 JavaRDD 参数，我试着像这样建造总价值...

rdd apache-spark-dataset nd4j

回答 2 投票 0

如何删除 RDD PySpark 中的停用词？

如何删除 PySpark RDD 中的停用词？ my_doc = sc.parallelize([("Alex Smith", 101, ["i", "saw", "a", "sheep"]), ("John Lee", 102...

python apache pyspark jupyter-notebook rdd

回答 1 投票 0

将Pyspark RDD转换为Pandas数据框架。

rdd.take(3) ['REVISION 6 233188 AmericanSamoa 2001-01-19T01:12:51Z ip:office.bomis.com ip:office.bomis......]。

python pandas pyspark apache-spark-sql rdd

回答 1 投票 0

在PySpark中根据值的平等性过滤键值对的RDD。

给出[('项目', 10), ("Alice's", 11), ('in', 401), ('Wonderland,', 3), ('Lewis', 10), ('Carroll', 4), ('', 2238), ('is', 10), ('use', 24), ('of', 596), ('anyone', 4), ('anywhere', 3), ...。

python apache-spark filter pyspark rdd

回答 2 投票 1

如何从Rdd中过滤数据，并将其保存到文本文件中，在spark中使用scala。

我有两个TSV格式的数据集。我想在spark scala中读取两个TSV文件并进行分析。文件1有8月数据和文件2有9月数据。我如何读取这两个tsv文件使用scala在... ...

scala apache-spark rdd

回答 1 投票 0

在PySpark中使用RDDs计算列表中的数值。

我陷入了一个寻找每个城市的每个工资数的问题，我只用RDDs来解决这个问题，这意味着没有使用DF，也没有使用任何库中的函数。

python apache-spark pyspark rdd

回答 1 投票 -1

Apache Spark安然数据集

我正试图在apache spark上分析安然数据集。我想提取电子邮件从和到。首先创建和rdd使用以下函数：def utf8_decode_and_filter(rdd): def utf_decode(s): ...

python apache-spark pyspark rdd

回答 1 投票 -1

数据框架到RDD这段代码无法工作。

我试图读取数据框架的每一行，并将行数据转换为自定义Bean类。但问题是，代码没有被执行。为了检查，我写了多个打印语句......。

scala apache-spark apache-spark-sql rdd

回答 1 投票 -2

pyspark的fold函数中中性零值是什么意思？

以下是来自 operator import add 的代码片段 iris1 = sc.textFile(".datasetiris_site.csv") iris1_split = iris1.map(lambda var1: var1.split(",")) iris1_split.map(lambda col:float(col[0])).fold(0,...)

python python-3.x apache-spark pyspark rdd

回答 1 投票 0

如何在 spark scala 中用换行符替换双引号？

我是新的火花。我有一个巨大的文件，里面的数据是--18765967790@18765967790@T@20130629@00@31@2981546 " "18765967790@18765967790@T@20130629@19@18@3240165 " "18765967790@18765967790@T@20130629@......" 。

scala apache-spark apache-spark-sql rdd

回答 1 投票 0

如何使用 pyspark RDD 对数据进行分区、排名和排序？

我使用pyspark，有一个RDD，格式如下。RDD1 = (年龄, 代码, 计数) 我需要找到每个年龄段的最高计数的代码. 我在一个数据框架中使用......完成了这个工作。

pyspark rdd

回答 1 投票 0

Java Spark - 在RDD中根据列数过滤记录的问题。

这是一个不同的问题，我试图根据列数来过滤RDD中的记录。这更像是一个文件处理。我在Pyspark中写了同样的内容，我看到记录是...

java apache-spark rdd

回答 1 投票 0

在spark中，RDD、Dataframe、Dataset中哪个更好地进行avro列式操作？

我们有一个用例，我们需要在avro数据集上进行一些列式转换。我们以前一直到现在都在运行MR作业，现在想探索spark。我正在浏览一些教程，但不确定......

dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

回答 1 投票 0

数组元素组合

我是一个Scala新手。我有一个array[Int]的rdd，如下所示。([0,1,7],[0,1],[0,1,3],...)现在我想得到每个内表中的数组组合，就像下面这样。阵列[[0,1,7],...

scala apache-spark rdd

回答 1 投票 0

pyspark RDD字计算

我有一个包含文本和类别的数据框架。我想统计这些类别中常见的词。我正在使用 nltk 来删除停止的单词并标记化，但是无法包含 ...

apache-spark pyspark nltk rdd

回答 1 投票 0

如何在Pyspark中用嵌套的RDD列表获得不同的字典？

我有一个类似的问题。如何在PySpark中得到一个独特的RDD dicts? 然而，有一些区别。我有一个 dict，键为字符串，值为列表，形状如下。{"...

python pyspark rdd

回答 1 投票 0

从Spark Streaming中获取异常 "没有注册输出操作，所以没有执行"。

package com.scala.sparkStreaming import org.apache.spark._ import org.apache.spark.streaming._ object Demo1 { def main(assdf:Array[String]){ val sc=new SparkContext("local", "Stream") ....

apache-spark spark-streaming rdd spark-structured-streaming

回答 1 投票 0

分列

你好，我想在spark RDD中拆分一列。数据集样本：twitter数据这里我想把月列拆成一个月和一个年。例如：2019年10 2009年11，并进一步计算所有的... ...

scala apache-spark-sql rdd

回答 1 投票 0

在RDD中过滤空分区

RDD中有没有过滤分区的方法？我在分区后有一些空的分区，我不能在动作方法中使用它们。我在Scala中使用Apache Spark

scala apache-spark filtering rdd partition

回答 2 投票 0

rdd 相关问题

最新问题