rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

Apache Spark:用户内存与Spark内存

我正在构建一个Spark应用程序,我必须缓存大约15 GB的CSV文件。我在这里阅读了Spark 1.6中引入的新的UnifiedMemoryManager:https:///0x0fff.com/spark-memory-management/ ...

回答 2 投票 7

将数组(行)的RDD转换为行的RDD?

我在文件中有这样的数据,我想用Spark做一些统计。文件内容:aaa | bbb | ccc ddd | eee | fff | ggg我需要为每一行分配一个id。我把它们读作rdd并使用zipWithIndex()。 ...

回答 1 投票 1

如何根据数据集中的行长度过滤RDD。

我想过滤掉一个从数据集创建的RDD,基于行的长度使用:Pyspark shell我的数据文件看起来像这样> fzDTn342L3Q djjohnnykey 599音乐185 1005 3 ....

回答 1 投票 0

Apache Spark历史服务器日志

我的Apache Spark应用程序处理巨型RDD并通过History Server生成EventLog。如何导出这些日志并将其导入另一台计算机以通过History Server查看它们...

回答 2 投票 0

使用Spark中的RDD查找密钥的平均值

我创建了RDD,第一列是Key,其余列是针对该键的值。每行都有一个唯一的密钥。我想找到每个键的平均值。我创建了Key值对......

回答 1 投票 0

Apache Spark:map vs mapPartitions?

RDD的map和mapPartitions方法之间有什么区别? flatMap的行为是map还是mapPartitions?谢谢。 (编辑)即有什么区别(无论是语义还是......

回答 3 投票 109

如何在Scala中总结这两个Spark Dataframe?

我熟悉Spark和Scala,我目前的任务是“总结”这两个数据帧:+ --- + -------- + -------------- ----- + | cyl | avg(mpg)| VAR_SAMP(MPG)| + - + -------- + ------------------- + ...

回答 1 投票 0

Pyspark - 如何使用关键AND值上的广播字典过滤RDD

我正在尝试基于广播变量过滤大型RDD。我能够执行以下操作,过滤作为广播变量中的键存在的元组。 nested_filter = {“india”:'ind',“......

回答 1 投票 1

Pyspark:AttributeError:'dict'对象没有属性'lookup'

我有一个RDD,其前2个元素如上所示:dataset_json = sc.textFile(“data / my_data.json”)dataset = dataset_json.map(lambda x:json.loads(x))dataset.persist()dataset.take (2)......

回答 1 投票 1

Pyspark - RDD过滤器与广播词典中的日期

我有一个我广播的python字典,其中包含用户的日期过滤器。 nested_filter = {“user1”:“2018-02-15”} b_filter = sc.broadcast(nested_filter)我想使用这个广播变量......

回答 1 投票 0

为什么Spark的重新分区没有平衡数据到分区?

>>> rdd = sc.parallelize(range(10),2)>>> rdd.glom()。collect()[[0,1,2,3,4],[5,6,7,8, 9] >>> rdd.repartition(3).glom()collect()[[],[0,1,2,3,4],[5,6,7,8,...

回答 3 投票 2

Spark Rdd - 使用具有多个列值的sortBy

对数据集进行分组后,它看起来像这样(AD_PRES,1)(AD_VP,2)(FI_ACCOUNT,5)(FI_MGR,1)(IT_PROG,5)(PU_CLERK,5)(PU_MAN,1)(SA_MAN,5)( ST_CLERK,20)(ST_MAN,5)这里我想按键排序为......

回答 1 投票 -1

在Apache Spark中缓存RDD的目的是什么?

我是Apache Spark的新手,我在火花中有几个基本问 题,在阅读火花材料时我无法理解。每种材料都有自己的解释风格。我在用 ...

回答 1 投票 4

我应该如何将org.apache.spark.ml.linalg.Vector的RDD转换为Dataset?

我很难理解RDD,DataSet和DataFrame之间的转换是如何工作的。我对Spark很陌生,每当我需要从数据模型传递到另一个时,我就会陷入困境(特别是...

回答 2 投票 2

Spark中sc.textFile和spark.read.text之间的区别

我试图将一个简单的文本文件读入Spark RDD,我发现有两种方法可以做到这一点:从pyspark.sql导入SparkSession spark = SparkSession.builder.master(“local [*]”)....

回答 1 投票 1

JavaRDD相当于GROUP BY

我有一个CSV数据集,其中包含以下列(Accident_Id,Date,Area)和数百行。我想要实现的是按区域列分组到可能的唯一组中并查找计数...

回答 1 投票 1

如何从PySpark中的单个元素的RDD创建一对RDD?

这是实际的管道。我正在向RDD加载文本。然后我把它清理干净。 rdd1 = sc.textFile(“sometext.txt”)import re import string def Func(lines):lines = lines.lower()#make all text ...

回答 2 投票 0

RDD在内存中保留多长时间?

考虑到内存有限,我感觉火花会自动从每个节点中删除RDD。我想知道这个时间是可配置的吗? Spark如何决定何时驱逐RDD ......

回答 4 投票 6

如何控制RDD分区的首选位置?

有没有办法手动设置RDD分区的首选位置?我想确保在某台机器上计算某些分区。我正在使用数组和'Parallelize'方法来...

回答 1 投票 3

缓存和持久有什么区别? (为什么)我们需要在RDD上调用缓存或持久化

在RDD持久性方面,spark中的cache()和persist()之间有什么区别?

回答 5 投票 194

© www.soinside.com 2019 - 2024. All rights reserved.