rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

在pyspark中乘以两个RDD

我是pyspark的新手。我一直在尝试将两个稀疏RDD相乘。我尝试过的代码生成两个稀疏矩阵，并且我编写了一个将两个RDD相乘的函数，但是我认为这是...

apache-spark pyspark rdd

回答 1 投票 0

动态组并通过Spark数据框/数据集进行计数

用例是按给定数据集中的每一列进行分组，并获取该列的计数。结果集是（键，值）映射，然后最终是所有映射。例如，学生= {（年龄，...

scala apache-spark apache-spark-sql dataset rdd

回答 2 投票 0

如何在RDD中将字符串元素转换为数字1

我想转换以下RDD数据中的字符串元素0 = sc.parallelize（[（'0'，'2.023'），（'0.2'，'4.235'），（'1.23'，'0.45'），（'1.23'，'10 .2'），（'1.0'，'20 .0'）]）为数值。...

apache-spark pyspark rdd

回答 1 投票 0

如何在Spark Java中创建复杂的StructType架构

[如何在Spark Java sam | mars | 1234567 |中使用StructType为以下数据定义数据类型：“报告”：{“详细信息”：[{“主题”：“科学”，“等级”：“ A”， “备注”：“良好”}，{“主题”：“数学”，“等级”：“ ...

java apache-spark apache-spark-sql rdd spark-java

回答 1 投票 0

spark（with scala）中reduceByKey的意外行为？在spark或scala中是“ rev”保留字吗？

我有一个带有一些记录的文件。 1,1,957,1,299.98,299.98 2,2,1073,1,199.99,199.99 3,2,502,5,250.0,50.0 4,2,403,1,129.99,129.99 5,4,897,2,49.98,24.99 6,4,365,5,299.95,59.99 7,4,502， 3,150.0,50.0 8,4，...

scala apache-spark rdd

回答 1 投票 0

为什么在一个阶段之后从文件中读取Spark这么快？

Spark在随机播放后将其结果具体化在磁盘上。在进行实验时，我看到Spark的一个任务在1毫秒内读取了65MB的物化数据（有些任务甚至显示在0ms内读取该数据：）...

apache-spark rdd

回答 1 投票 0

Python列表清单// Pyspark

输入：[['A'，'V1']，['A'，'V2']，['B'，'V6']，['B'，'V7']]我如何获得上面的输入的下面的输出预期的输出：listA = ['V1'，'V2']，listB = ['V6'，'V7']附加信息：...

python list pyspark bigdata rdd

回答 1 投票 0

如何过滤日期列，并使用Scala将其作为数字存储在数据框中

scala dataframe apache-spark-sql rdd

回答 1 投票 0

获取pyspark中的分区数

我从表中选择所有内容，然后使用Pyspark在其中创建一个数据框（df）。现在被划分为：partitionBy（'date'，'t'，'s'，'p'）现在我想通过使用...

dataframe pyspark rdd hive-partitions

回答 2 投票 0

使用pyspark计算所有可能的单词对

我有一个文本文件。我需要在整个文档中找到重复单词对的可能计数。例如，我有下面的word文档。该文档有两行，每行分开...

python apache-spark pyspark rdd

回答 1 投票 1

在Spark中创建分布式RDD

我知道要创建一个RDD，我们有两种方法：使驱动程序中的现有集合并行化。从诸如HDFS，HBase等外部存储系统中引用数据。但是，我会...

apache-spark apache-spark-sql rdd

回答 1 投票 1

为Spark RDD中的每个分区基于复合键获取最高值

我想使用以下rdd rdd = sc.parallelize（[（“ K1”，“ e”，9），（“ K1”，“ aaa”，9），（“ K1”，“ ccc”，3 ），（“ K1”，“ ddd”，9），（“ B1”，“ qwe”，4），（“ B1”，“ rty”，7），（“ B1”，“ iop”，8），（“ B1”，“ zxc”，1）]）...

apache-spark pyspark rdd

回答 1 投票 0

在什么情况下会跳过DAG的阶段？

我正在尝试查找在我使用RDD的情况下Spark会跳过阶段的情况。我知道，如果发生洗牌操作，它将跳过阶段。所以，我写了以下代码...

apache-spark rdd

回答 1 投票 1

从火花中的每个分区中选择N个元素

假设我有RDD。我将RDD的分区数设置为5。我想从每个分区中选择10个元素，并希望将它们存储在一个名为var1的变量中，稍后我要广播...

scala apache-spark rdd

回答 1 投票 0

具有精确词匹配搜索的RDD过滤器

我有一个rdd对象（从文本文件创建），我正在通过使用完全匹配的单词进行过滤来创建另一个rdd对象。 rdd2 = rdd1.filter（lambda x：x中的单词）word是在for中生成的字符串...

python apache-spark pyspark rdd

回答 1 投票 0

我需要计算pyspark电影的平均收视率

我有一组电影数据/评分，我需要按电影计算评分的平均值。这就像是SQL中的分级groupby movieId的总和。非常感谢您为我尝试提供的帮助...

pyspark average rdd calculation

回答 1 投票 0

KeyError：''空字符串错误Pyspark（Spark RDD）

我正在做一个简单的练习，根据一个共同朋友边缘列表图形推荐新朋友，并在某些过滤条件下计算每个特定用户的前20个共同朋友。我是...

python apache-spark pyspark rdd

回答 1 投票 0

如何将火花rdd的副本存储到另一个rdd

[我有两个火花rdd：RDD1：RDD [（String，String，Int）]和RDD2：RDD [（String，String，Int）] RDD1是原始数据，而RDD2与RDD1不同，我需要创建一个RDD3是...的RDD1-RDD2。

apache-spark rdd

回答 1 投票 0

java.lang.StringIndexOutOfBoundsException：字符串索引超出范围：-650599791

此处错误：org.apache.spark.SparkException：由于阶段失败而导致作业中止：阶段132.0中的任务0失败了4次，最近的失败：阶段132.0中的任务0.3丢失：java.lang ....

apache-spark java-8 rdd

回答 1 投票 1

如何将spark rdd用管道传输到python并从python返回rdd

这是我在scala文件中的代码val data = List（“ cdn.resized-images.covethome.com”）val dataRDD = sc.makeRDD（data）val scriptPath =“ / Users / hareshbhuriya / Documents / final-python-集成/ ...

dataframe apache-spark pipe rdd

回答 1 投票 1

rdd 相关问题

最新问题