rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

如何通过Spark RDD(Java)中的索引获取元素而不是scala,python

我知道方法rdd.first(),它给了我RDD中的第一个元素。此外,还有rdd.take(num)方法,它给出了第一个num元素。但是没有可能获得......

回答 1 投票 -3

弹性分布式数据集可以永久存储为文件吗?

我想将RDD上的每个转换存储为一个文件,以便我可以在需要时将它们引回。我发现每次提到的RDD总是谈论它们是在内存中创建的,我们可以......

回答 1 投票 1

如何计算合并的最佳numberOfPartitions?

因此,我理解一般情况下应该在以下情况下使用coalesce():由于过滤器或其他可能导致减少原始数据集(RDD,DF)的操作,分区数量减少......

回答 3 投票 14

为什么sortBy()无法在Spark中均匀地对数据进行排序?

我正在编写一个pyspark脚本来读取一个大的二维数组,所以我尝试先生成一个索引数组并使用read方法映射以读入相应的数组。例如,如果我有......

回答 1 投票 4

如何从pyspark检索RDD依赖项? [重复]

如何从PySpark中检索RDD的依赖项? Scala有dependencies()方法:public final scala.collection.Seq > dependencies()我看不到一个等价物......

回答 1 投票 0

如何在RDD中对列表的一部分求和

我有一个RDD,我想总结一下列表。 (key,element2 + element3)(1,List(2.0,3.0,4.0,5.0)),(2,List(1.0,-1.0,-2.0,-3.0))输出应该如下所示,(1,7.0) ,(2,-3 ....

回答 2 投票 -1

在rdd中映射CompactBuffer

我有一个RDD,它是groupByKey,如下所示,(1,CompactBuffer(2.0,3.0,4.0)),(2,CompactBuffer(1.0,-1.0,-2.0))我希望mapValues成为(1 * x_1 ^ 2, 2 * x_2 ^ 2,3 * x_3 ^ 2)看起来应该是......

回答 1 投票 0

Scala RDD按范围计算

我需要“提取”Iterable [MyObject]中包含的一些数据(它是groupBy之前的RDD [MyObject])。我的初始RDD [MyObject]:| ----------- | --------- | ---------- | | startCity | endCity | ...

回答 2 投票 1

转换JavaPairRDD 到JavaRDD

我试图使用Apache Spark从HBase读取数据。我只想扫描一个特定的列。我正在创建我的HBase数据的RDD,如下面的SparkConf sparkConf = new SparkConf()。setAppName(“...

回答 1 投票 0

计算向量与K均值聚类中心的距离

我有训练数据集,我在K = 4上运行了K-means,得到了四个集群中心。对于新的数据点,我不仅想知道预测的集群,还想知道它的距离......

回答 2 投票 2

ReduceByKey函数在Spark中

我已经读过某些地方,对于作用于单个RDD的操作,例如reduceByKey(),在预分区的RDD上运行将导致每个键的所有值在本地计算在一个...

回答 3 投票 1

反向重申RDD

我有以下类型的纯Scala代码:import breeze.numerics.log import spire.random.Dist import org.apache.commons.math3.distribution.NormalDistribution import scala.collection.mutable ....

回答 2 投票 0

AbstractJavaRDDLike << >>类型中的方法.map不适用于参数

我在talend收到错误。 PFA。请查看映射的更多详细信息。你能帮帮我吗?谢谢汤姆

回答 1 投票 0

通过索引关联RDD中的两个数组

我有一个RDD包含每行RDD [(Array [Int],Array [Double])]的两个数组。对于每一行,两个数组的大小相似。但是,每一行都有不同的n大小,n可以达到......

回答 1 投票 1

Apache Spark:在PairFlatMapFunction中,如何将元组添加回Iterable >返回类型

我是新来的。我一直在研究涉及两个数据集的代码。因此,我开始使用PairFlatMapFunction,我正在处理映射器。 JavaPairRDD ...

回答 2 投票 1

在Spark RDD中使用regex从字符串中提取时间戳

我有一个日志:[Pipeline] timestamps [Pipeline] {[Pipeline] echo 20:33:05 0 [Pipeline] echo我试图只在这里提取时间信息(20:33:05)。我试图做以下事情:......

回答 1 投票 0

转换CassandraTableScanRDD org.apache.spark.rdd.RDD

我有以下情况。我有大型Cassandra表(有大量列),我想用Spark处理。我只想将选定的列加载到Spark中(应用选择...

回答 1 投票 1

将RDD数组[Any] =数组(List([String],ListBuffer([string]))转换为RDD(String,Seq [String])

我有一个任意类型的RDD,例如:数组(List(数学科学,ListBuffer(应用程序,渐近,最大,启用,随机)))我想将它转换为RDD类型的RDD [(String,Seq [String]。 ..

回答 3 投票 0

如何创建自定义集累加器,即设置[String]?

我试图在Apache Spark中使用自定义累加器来累积一组。结果应该具有Set [String]类型。为此我创建自定义累加器:对象SetAccumulatorParam扩展...

回答 2 投票 1

如何知道Spark使用Scala推断出哪种RDD类型

我正在尝试以下示例val lista = List((“a”,3),(“a”,1),(“b”,7),(“a”,5))val rdd = sc.parallelize( lista)然后在shell中我得到以下rdd:org.apache.spark.rdd.RDD [(String,...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.