rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

如何通过Spark RDD（Java）中的索引获取元素而不是scala，python

我知道方法rdd.first（），它给了我RDD中的第一个元素。此外，还有rdd.take（num）方法，它给出了第一个num元素。但是没有可能获得......

java python apache-spark pyspark rdd

回答 1 投票 -3

弹性分布式数据集可以永久存储为文件吗？

我想将RDD上的每个转换存储为一个文件，以便我可以在需要时将它们引回。我发现每次提到的RDD总是谈论它们是在内存中创建的，我们可以......

apache-spark rdd distributed-computing

回答 1 投票 1

如何计算合并的最佳numberOfPartitions？

因此，我理解一般情况下应该在以下情况下使用coalesce（）：由于过滤器或其他可能导致减少原始数据集（RDD，DF）的操作，分区数量减少......

scala apache-spark rdd

回答 3 投票 14

为什么sortBy（）无法在Spark中均匀地对数据进行排序？

我正在编写一个pyspark脚本来读取一个大的二维数组，所以我尝试先生成一个索引数组并使用read方法映射以读入相应的数组。例如，如果我有......

python apache-spark pyspark rdd

回答 1 投票 4

如何从pyspark检索RDD依赖项？ [重复]

如何从PySpark中检索RDD的依赖项？ Scala有dependencies（）方法：public final scala.collection.Seq > dependencies（）我看不到一个等价物......

python apache-spark pyspark rdd

回答 1 投票 0

如何在RDD中对列表的一部分求和

我有一个RDD，我想总结一下列表。（key，element2 + element3）（1，List（2.0,3.0,4.0,5.0）），（2，List（1.0，-1.0，-2.0，-3.0））输出应该如下所示，（1,7.0），（2，-3 ....

scala apache-spark rdd scala-2.10

回答 2 投票 -1

在rdd中映射CompactBuffer

我有一个RDD，它是groupByKey，如下所示，（1，CompactBuffer（2.0,3.0,4.0）），（2，CompactBuffer（1.0，-1.0，-2.0））我希望mapValues成为（1 * x_1 ^ 2， 2 * x_2 ^ 2,3 * x_3 ^ 2）看起来应该是......

scala rdd scala-2.10

回答 1 投票 0

Scala RDD按范围计算

我需要“提取”Iterable [MyObject]中包含的一些数据（它是groupBy之前的RDD [MyObject]）。我的初始RDD [MyObject]：| ----------- | --------- | ---------- | | startCity | endCity | ...

scala apache-spark rdd iterable

回答 2 投票 1

转换JavaPairRDD 到JavaRDD

我试图使用Apache Spark从HBase读取数据。我只想扫描一个特定的列。我正在创建我的HBase数据的RDD，如下面的SparkConf sparkConf = new SparkConf（）。setAppName（“...

java apache-spark hbase rdd java-pair-rdd

回答 1 投票 0

计算向量与K均值聚类中心的距离

我有训练数据集，我在K = 4上运行了K-means，得到了四个集群中心。对于新的数据点，我不仅想知道预测的集群，还想知道它的距离......

scala apache-spark spark-dataframe rdd apache-spark-mllib

回答 2 投票 2

ReduceByKey函数在Spark中

我已经读过某些地方，对于作用于单个RDD的操作，例如reduceByKey（），在预分区的RDD上运行将导致每个键的所有值在本地计算在一个...

scala apache-spark rdd partitioning reduce

回答 3 投票 1

反向重申RDD

我有以下类型的纯Scala代码：import breeze.numerics.log import spire.random.Dist import org.apache.commons.math3.distribution.NormalDistribution import scala.collection.mutable ....

scala apache-spark reverse rdd

回答 2 投票 0

AbstractJavaRDDLike << >>类型中的方法.map不适用于参数

我在talend收到错误。 PFA。请查看映射的更多详细信息。你能帮帮我吗？谢谢汤姆

tsql bigdata spark-dataframe rdd talend

回答 1 投票 0

通过索引关联RDD中的两个数组

我有一个RDD包含每行RDD [（Array [Int]，Array [Double]）]的两个数组。对于每一行，两个数组的大小相似。但是，每一行都有不同的n大小，n可以达到......

arrays scala apache-spark rdd

回答 1 投票 1

Apache Spark：在PairFlatMapFunction中，如何将元组添加回Iterable >返回类型

我是新来的。我一直在研究涉及两个数据集的代码。因此，我开始使用PairFlatMapFunction，我正在处理映射器。 JavaPairRDD ...

java hadoop apache-spark rdd bigdata

回答 2 投票 1

在Spark RDD中使用regex从字符串中提取时间戳

我有一个日志：[Pipeline] timestamps [Pipeline] {[Pipeline] echo 20:33:05 0 [Pipeline] echo我试图只在这里提取时间信息（20:33:05）。我试图做以下事情：......

regex hadoop apache-spark rdd

回答 1 投票 0

转换CassandraTableScanRDD org.apache.spark.rdd.RDD

我有以下情况。我有大型Cassandra表（有大量列），我想用Spark处理。我只想将选定的列加载到Spark中（应用选择...

scala apache-spark dataframe cassandra rdd

回答 1 投票 1

将RDD数组[Any] =数组（List（[String]，ListBuffer（[string]））转换为RDD（String，Seq [String]）

我有一个任意类型的RDD，例如：数组（List（数学科学，ListBuffer（应用程序，渐近，最大，启用，随机）））我想将它转换为RDD类型的RDD [（String，Seq [String]。 ..

scala apache-spark rdd

回答 3 投票 0

如何创建自定义集累加器，即设置[String]？

我试图在Apache Spark中使用自定义累加器来累积一组。结果应该具有Set [String]类型。为此我创建自定义累加器：对象SetAccumulatorParam扩展...

scala apache-spark rdd accumulator

回答 2 投票 1

如何知道Spark使用Scala推断出哪种RDD类型

我正在尝试以下示例val lista = List（（“a”，3），（“a”，1），（“b”，7），（“a”，5））val rdd = sc.parallelize（ lista）然后在shell中我得到以下rdd：org.apache.spark.rdd.RDD [（String，...

scala shell apache-spark rdd apache-spark-1.6

回答 1 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.