rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

如何根据值将RDD分为不同的RDD，并将每个部分赋予函数

我有一个RDD，其中每个元素都是一个case类，例如：case class Element（target：Boolean，data：String）现在，我需要根据String数据是什么来分割RDD（它是一个离散值。） ..

scala apache-spark rdd

回答 1 投票 0

Spark Scala [for if-else嵌入的循环]我如何不能接收重复数组

我正在尝试计算数组RDD级别中的某些单词。它几乎完成了一半。但是，结果显示出与我要查找的结果不完全相同。我正在处理类似...

arrays scala apache-spark rdd

回答 1 投票 0

如何将Spark RDD / DataFrame用于循环问题

我有一个名为问题的txt文件，该文件有7000行。每行是一个字符串句子。例如，“您好，我可以要求美国运通金卡新会员优惠吗？”我想检查...

python apache-spark rdd

回答 1 投票 -1

如何从csv文件中的spark中的id对值求和

def parse（a：String）：Double = {if（a！= null && a.length> 0 &&！a.equals（“ PostGA”））{a.toDouble} else {0}} ...] >

scala apache-spark hadoop rdd

回答 1 投票 -1

加入两个流水线RDD

我正在尝试在pyspart jupyter笔记本中使用.join（）连接两个流水线的RDD：第一个RDD：primaryType.take（5）[“欺骗性实践”，“犯罪性攻击”，“盗窃”，“盗窃”，“犯罪性” ...

pyspark jupyter-notebook bigdata rdd

回答 1 投票 0

将唯一键值分配给每个流水线RDD中的元素

我有一个管道RDD：districts.take（5）['004'，'022'，'008'，'003'，'001']我希望每个元素都具有一个唯一的键，例如：[（1，' 004'），（2，'022'）等...]我该怎么做？

pyspark jupyter-notebook bigdata rdd

回答 1 投票 0

为grep -i shell命令抛出rdd.pipe抛出java.lang.IllegalStateException吗？

[我正在运行在RDD Spark操作中使用管道的代码：我尝试过以下代码段：// PIPE-在spark val中运行外部外壳脚本val x = sc.parallelize（Array（“ A”，“ Ba”，“ C“，” AD“））val y ...

bash scala apache-spark rdd databricks

回答 1 投票 0

EffectservesPartitioning RDD true / false为mapPartitions提供相同的结果

请阅读以下版本，但是是由最近的SO问题触发的。当然，RDD本身是旧的，但仍然很奇怪。 reservesPartitioning指示输入函数是否保留...

apache-spark rdd

回答 1 投票 -1

Spark中分组的PairRDD中的最佳分区数

我有两对RDD，其结构为RDD [String，Int]，分别称为rdd1和rdd2。这些RDD中的每一个都按其键分组，我想对其值执行一个函数（所以我将使用mapValues ...

scala apache-spark rdd partitioning

回答 1 投票 0

使用基于'A'，'E'，'I'，'O'，'U'元音的scala在Spark（使用RDD的Core）WordCount程序中创建5分区文件

使用基于“ A”，“ E”，“ I”，“ O”，“ U”的元音的scala在Spark（使用RDD的Core）WordCount程序中创建5分区文件，即5个文件，每个文件包含每个元音和计数。例如，如果...

scala apache-spark rdd

回答 1 投票 1

通过RDD获取路径读取中的文件数

我正在读取RDD中的路径。我知道在Java中有几种方法可以读取一个文件夹中的文件数量。但是有没有办法获取该文件中存在的文件数。

apache-spark rdd

回答 1 投票 -3

pyspark：获取列表值的不同元素

我有这种形式的rdd，rdd = sc.parallelize（[（'A'，[1，2，4，1，1，2，5]），（'B'，[2，3，2，1 ，5，10]），（'C'，[3，2，5，10，5，2]）]））但我想将rdd转换如下，newrdd = [（'A'，[...

python apache-spark pyspark rdd

回答 4 投票 0

如何将中间结果存储在pyspark reduceByKey函数中？

这是计算平均持有成本的情况。我们只考虑增加帐户余额的交易，而不考虑减少帐户余额的交易。＃数据示例：（（1，'...

python pyspark rdd

回答 1 投票 0

如何使用pyspark流计算csv文件中的条目数

我有一个监视器目录，其中包含.csv文件的数量。我需要计算即将到来的.csv文件中每个条目的数量。我想在pyspark流上下文中执行此操作。这就是我所做的，...

python-3.x pyspark bigdata spark-streaming rdd

回答 1 投票 0

如何将具有不同长度的多个RDD合并为具有特定顺序模式的单个RDD？

我有几个不同长度的RDD：RDD1：[a，b，c，d，e，f，g] RDD2：[1、3、2、44、5] RDD3：[D，F，G] I想要将它们组合成一个具有顺序模式的RDD：每5行：需要2 ...

apache-spark rdd recommender-systems

回答 1 投票 -2

在单个RDD中加入两个字符串以在pyspark中形成新的RDD

我有一个rdd＆apply集合后，如下所示； rdd = [（'Amazon'，'2016/01/09'，'17：06：24'，'17：10：03'），（'Amazon'，'2016/02/09'，'17：06 ：55'，'17：10：00'），（'Amazon'，'2016/02/09'，'17：10：...

python python-3.x pyspark bigdata rdd

回答 1 投票 0

使用Java将spark RDD保存到本地文件系统中

我有一个使用Spark生成的RDD。现在，如果我将此RDD写入一个csv文件，则可以使用“ saveAsTextFile（）”之类的一些方法，该方法将一个csv文件输出到HDFS。我想写...

java sql-server apache-spark hdfs rdd

回答 1 投票 5

如果通过spark读取json时需要进行模式验证，则需要在模式中显式添加“ _corrupt_record”列

[当我通过spark（使用scala）读取JSON时，val rdd = spark.sqlContext.read.json（“ / Users / sanyam / Downloads / data / input.json”）val df = rdd.toDF（）df.show（）println（df.schema）// val模式= df ....

json apache-spark apache-spark-sql rdd

回答 1 投票 1

在两个Rdd上使用并集后无法将Pyspark作业结果保存到单个文本文件中

我有一个文本作为数据源文件，没有标题行，我对rdd进行了一些转换。之后，我使用parallelize创建了一个标题rdd，并与两个rdd进行了并集。我保存...

python python-3.x apache-spark pyspark rdd

回答 1 投票 -1

Pyspark RDD不同地汇总不同的值字段

这是一个开放式的问题，但是我有这种格式的RDD。 [（'2014-06'，（'131313'，5.5，6.5，7.5，10.5）），（'2014-07'，（'246655'，636636.53，.53252，5252.112，5242.23）），（'2014- 06'，（'...

python apache-spark pyspark aggregate rdd

回答 2 投票 2

rdd 相关问题

最新问题