rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

我正在构建一个Spark应用程序，我必须缓存大约15 GB的CSV文件。我在这里阅读了Spark 1.6中引入的新的UnifiedMemoryManager：https：///0x0fff.com/spark-memory-management/ ...

caching apache-spark memory memory-management rdd

回答 2 投票 7

将数组（行）的RDD转换为行的RDD？

我在文件中有这样的数据，我想用Spark做一些统计。文件内容：aaa | bbb | ccc ddd | eee | fff | ggg我需要为每一行分配一个id。我把它们读作rdd并使用zipWithIndex（）。 ...

scala apache-spark dataframe rdd

回答 1 投票 1

如何根据数据集中的行长度过滤RDD。

我想过滤掉一个从数据集创建的RDD，基于行的长度使用：Pyspark shell我的数据文件看起来像这样> fzDTn342L3Q djjohnnykey 599音乐185 1005 3 ....

python apache-spark filter pyspark rdd

回答 1 投票 0

Apache Spark历史服务器日志

我的Apache Spark应用程序处理巨型RDD并通过History Server生成EventLog。如何导出这些日志并将其导入另一台计算机以通过History Server查看它们...

apache-spark logging import export rdd

回答 2 投票 0

使用Spark中的RDD查找密钥的平均值

我创建了RDD，第一列是Key，其余列是针对该键的值。每行都有一个唯一的密钥。我想找到每个键的平均值。我创建了Key值对......

scala apache-spark rdd

回答 1 投票 0

Apache Spark：map vs mapPartitions？

RDD的map和mapPartitions方法之间有什么区别？ flatMap的行为是map还是mapPartitions？谢谢。（编辑）即有什么区别（无论是语义还是......

performance scala apache-spark rdd

回答 3 投票 109

如何在Scala中总结这两个Spark Dataframe？

我熟悉Spark和Scala，我目前的任务是“总结”这两个数据帧：+ --- + -------- + -------------- ----- + | cyl | avg（mpg）| VAR_SAMP（MPG）| + - + -------- + ------------------- + ...

scala apache-spark apache-spark-sql rdd

回答 1 投票 0

Pyspark - 如何使用关键AND值上的广播字典过滤RDD

我正在尝试基于广播变量过滤大型RDD。我能够执行以下操作，过滤作为广播变量中的键存在的元组。 nested_filter = {“india”：'ind'，“......

python apache-spark pyspark rdd

回答 1 投票 1

Pyspark：AttributeError：'dict'对象没有属性'lookup'

我有一个RDD，其前2个元素如上所示：dataset_json = sc.textFile（“data / my_data.json”）dataset = dataset_json.map（lambda x：json.loads（x））dataset.persist（）dataset.take （2）......

python-3.x pyspark rdd

回答 1 投票 1

Pyspark - RDD过滤器与广播词典中的日期

我有一个我广播的python字典，其中包含用户的日期过滤器。 nested_filter = {“user1”：“2018-02-15”} b_filter = sc.broadcast（nested_filter）我想使用这个广播变量......

python apache-spark pyspark rdd

回答 1 投票 0

为什么Spark的重新分区没有平衡数据到分区？

>>> rdd = sc.parallelize（range（10），2）>>> rdd.glom（）。collect（）[[0,1,2,3,4]，[5,6,7,8， 9] >>> rdd.repartition（3）.glom（）collect（）[[]，[0,1,2,3,4]，[5,6,7,8，...

apache-spark pyspark rdd

回答 3 投票 2

Spark Rdd - 使用具有多个列值的sortBy

对数据集进行分组后，它看起来像这样（AD_PRES，1）（AD_VP，2）（FI_ACCOUNT，5）（FI_MGR，1）（IT_PROG，5）（PU_CLERK，5）（PU_MAN，1）（SA_MAN，5）（ ST_CLERK，20）（ST_MAN，5）这里我想按键排序为......

scala apache-spark rdd

回答 1 投票 -1

在Apache Spark中缓存RDD的目的是什么？

我是Apache Spark的新手，我在火花中有几个基本问题，在阅读火花材料时我无法理解。每种材料都有自己的解释风格。我在用 ...

caching apache-spark pyspark rdd

回答 1 投票 4

我应该如何将org.apache.spark.ml.linalg.Vector的RDD转换为Dataset？

我很难理解RDD，DataSet和DataFrame之间的转换是如何工作的。我对Spark很陌生，每当我需要从数据模型传递到另一个时，我就会陷入困境（特别是...