rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

Scala:具有一组元组指定的不同条件的过滤器

我有一个RDD,它的field1包含药物名称,而field2包含该药物的相应剂量。我试图根据保存在一组元组中的多个条件来过滤此RDD,例如:...

回答 1 投票 0

在Spark SQL Shell中运行联接查询时Java堆空间OutOfMemoryError

这是我的集群配置:主节点:1(16个vCPU,64 GB内存)辅助节点:2(总共64个vCPU,256 GB内存)这是我试图在Spark SQL shell上运行的Hive查询:...

回答 1 投票 0

scala:在leftOuterJoin之后填充不存在的案例类

我在这种格式的案例类MyCaseClass(ID:String,date:Date,label:String)中有一对Case类的RDD“ A”,像这样:“ ID1”,(“ ID1”,2006-06-28, “ label1”)“ ID2”,(“ ID2”,1996-05-13,“ ...

回答 1 投票 0

Cassandra加入后解析Spark RDD

加入Cassandra后,我有一个RDD,但是我无法解析得到的RDD。这是详细的案例类IP(键:字符串,键2:字符串,键3:字符串,键4:字符串,键5:字符串,键6:...

回答 1 投票 0

关于在spark中指定架构的最佳选择以及如何从rdd spark中删除/删除列的问题?

我有两个数据集纽约市出租车数据和天气数据。气象数据来自大约100列,其中我只需要5-10列。而且我希望输入它们而不是字符串,因此需要一个...

回答 1 投票 0

Spark RDD类型的混淆

我只是学习Spark并从RDD开始,现在转到DataFrames。在我当前的pyspark项目中,我正在将S3文件读入RDD,并对它们进行一些简单的转换。这里...

回答 1 投票 0

Spark中的pyspark日期范围计算

我正在尝试处理每个用户的网站登录会话数据。我正在将S3会话日志文件读入RDD。数据看起来像这样。 ----------------------------------------用户| ...

回答 1 投票 0


我如何使用python或scala将非标准的csv文件读入数据帧

我下面有一个要用python或scala处理的数据集采样:FWD,13032009:09:01,10.56 | FWD,13032009:10:53,11.23 | FWD,13032009:15:40,23.20 SPOT,13032009:09:04,11.56 | FWD,13032009:11:45,11.23 | ...

回答 2 投票 2


pyspark-检索rdd的第一个元素-top(1)与first()

我必须从rdd中检索满足条件1的元素:[[((4,2),(6,3),(2,1)),((-3,4),(2, 1)),((4、2),(-3、4)),((2、1),(-3、4)),((6、3),(-3、4)),( (2,1),(6,3),(4,...

回答 1 投票 0

在pyspark中绑定cache()命令?

我才刚刚开始学习pyspark,并且正在研究如何使用缓存优化代码。链接cache()命令有意义吗?这是我的代码看起来像token_count_dict = dict(...

回答 1 投票 -1

由RDD元素对组成的scala Spark映射

在Spark中通过RDD进行迭代以同时获取前一个元素和当前元素的最佳实践是什么?与reduce函数相同,但返回RDD而不是单个值。对于...

回答 1 投票 -1

pyspark-在rdd.map(…)中实现帮助器

我有一对点的rdd。 [[(((2,1),0.5),((4,2),(6,3)))),((((2,1),-0.6),(-3,4)),((( -3,4),-0.2857142857142857),(4,2)),((((-3,4),-0.6),(2,1)),((((-3,4),-0.1111111111111111), ...

回答 1 投票 -1

过滤RDD以返回

我的函数(test_rdd.cartesian(test_rdd))返回如下所示的值对的RDD:[[(1,0),(1,0)),((1,0),(2,0)),( (1,0),(3,0)),((2,0),(1,0)),((2,0),(2,0)),((2,0),(3 ,0)),(((...

回答 1 投票 -1

Spark RDD是否对每个分区中的元素集具有确定性?

我找不到太多有关确保分区顺序的文档-我只想确保给 定一组确定性转换,如果...

回答 1 投票 0

Pyspark:分割Spark数据框字符串列,并循环字符串列表以将匹配的字符串分成多个列

我遇到的数据是这样的:req_id dsp_price_style 0“ 1000:10,1001:100,1002:5,1003:7” 1“ 1002:5,1000:100,1001:15,1003:6”字段“ dsp_price_style”的格式为dsp_id_0:...

回答 1 投票 0

如何在Spark Java中使用用户定义的文件名将数据框另存为文本文件

我正在尝试将数据框保存到特定位置。 successDF.toJavaRDD()。saveAsTextFile(successFilePath);在这里,successFilePath是:/hdfs/tmp/20200102/04.dat我需要...

回答 1 投票 0

如何根据值将RDD分为不同的RDD,并将每个部分赋予函数

我有一个RDD,其中每个元素都是一个case类,例如:case class Element(target:Boolean,data:String)现在,我需要根据String数据是什么来分割RDD(它是一个离散值。) ..

回答 1 投票 0

Spark Scala [for if-else嵌入的循环]我如何不能接收重复数组

我正在尝试计算数组RDD级别中的某些单词。它几乎完成了一半。但是,结果显示出与我要查找的结果不完全相同。我正在处理类似...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.