弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。
如何通过Spark RDD(Java)中的索引获取元素而不是scala,python
我知道方法rdd.first(),它给了我RDD中的第一个元素。此外,还有rdd.take(num)方法,它给出了第一个num元素。但是没有可能获得......
我想将RDD上的每个转换存储为一个文件,以便我可以在需要时将它们引回。我发现每次提到的RDD总是谈论它们是在内存中创建的,我们可以......
因此,我理解一般情况下应该在以下情况下使用coalesce():由于过滤器或其他可能导致减少原始数据集(RDD,DF)的操作,分区数量减少......
为什么sortBy()无法在Spark中均匀地对数据进行排序?
我正在编写一个pyspark脚本来读取一个大的二维数组,所以我尝试先生成一个索引数组并使用read方法映射以读入相应的数组。例如,如果我有......
如何从PySpark中检索RDD的依赖项? Scala有dependencies()方法:public final scala.collection.Seq > dependencies()我看不到一个等价物......
我有一个RDD,我想总结一下列表。 (key,element2 + element3)(1,List(2.0,3.0,4.0,5.0)),(2,List(1.0,-1.0,-2.0,-3.0))输出应该如下所示,(1,7.0) ,(2,-3 ....
我有一个RDD,它是groupByKey,如下所示,(1,CompactBuffer(2.0,3.0,4.0)),(2,CompactBuffer(1.0,-1.0,-2.0))我希望mapValues成为(1 * x_1 ^ 2, 2 * x_2 ^ 2,3 * x_3 ^ 2)看起来应该是......
我需要“提取”Iterable [MyObject]中包含的一些数据(它是groupBy之前的RDD [MyObject])。我的初始RDD [MyObject]:| ----------- | --------- | ---------- | | startCity | endCity | ...
我试图使用Apache Spark从HBase读取数据。我只想扫描一个特定的列。我正在创建我的HBase数据的RDD,如下面的SparkConf sparkConf = new SparkConf()。setAppName(“...
我有训练数据集,我在K = 4上运行了K-means,得到了四个集群中心。对于新的数据点,我不仅想知道预测的集群,还想知道它的距离......
我已经读过某些地方,对于作用于单个RDD的操作,例如reduceByKey(),在预分区的RDD上运行将导致每个键的所有值在本地计算在一个...
我有以下类型的纯Scala代码:import breeze.numerics.log import spire.random.Dist import org.apache.commons.math3.distribution.NormalDistribution import scala.collection.mutable ....
AbstractJavaRDDLike << >>类型中的方法.map不适用于参数
我在talend收到错误。 PFA。请查看映射的更多详细信息。你能帮帮我吗?谢谢汤姆
我有一个RDD包含每行RDD [(Array [Int],Array [Double])]的两个数组。对于每一行,两个数组的大小相似。但是,每一行都有不同的n大小,n可以达到......
Apache Spark:在PairFlatMapFunction中,如何将元组添加回Iterable >返回类型
我是新来的。我一直在研究涉及两个数据集的代码。因此,我开始使用PairFlatMapFunction,我正在处理映射器。 JavaPairRDD ...
我有一个日志:[Pipeline] timestamps [Pipeline] {[Pipeline] echo 20:33:05 0 [Pipeline] echo我试图只在这里提取时间信息(20:33:05)。我试图做以下事情:......
转换CassandraTableScanRDD org.apache.spark.rdd.RDD
我有以下情况。我有大型Cassandra表(有大量列),我想用Spark处理。我只想将选定的列加载到Spark中(应用选择...
将RDD数组[Any] =数组(List([String],ListBuffer([string]))转换为RDD(String,Seq [String])
我有一个任意类型的RDD,例如:数组(List(数学科学,ListBuffer(应用程序,渐近,最大,启用,随机)))我想将它转换为RDD类型的RDD [(String,Seq [String]。 ..
我试图在Apache Spark中使用自定义累加器来累积一组。结果应该具有Set [String]类型。为此我创建自定义累加器:对象SetAccumulatorParam扩展...
我正在尝试以下示例val lista = List((“a”,3),(“a”,1),(“b”,7),(“a”,5))val rdd = sc.parallelize( lista)然后在shell中我得到以下rdd:org.apache.spark.rdd.RDD [(String,...