apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

如何在Java中创建对象集合Spark Dataset?

我从过去几个月开始研究火花。其中Dataset是作为分布式对象的集合。我并不担心它是如何分布的,而是一个基本的数据结构。我很好奇...

回答 1 投票 0

Spark Dataset -聚合查询BigInt的总和为零。

我有一个ExpenseEntry类型的数据集。ExpenseEntry是一个基本的数据结构,用来跟踪每个类别的花费金额 case class ExpenseEntry( name: String, category: String, amount: ...

回答 1 投票 0

spark在S3上的分区内创建分区

我有下面的标签分隔的示例数据集:col1期col3col4col5col6col7col8col9col10col11col12col13col14col15col16col17col18col19col20col21col22 ASSDF 202001 A B ....

回答 1 投票 2

大数据(spark sql和spark dataframes连接)

我是大数据平台的新手。请你让我知道不同的方式。1)我们如何连接到Spark sql的火花?2)我们如何连接到spark数据框或数据集的sparrk? 对于hive,我们...

回答 1 投票 0

将Spark结构化的流数据帧传递给函数

我从源卡夫卡读取了火花结构化的流数据帧。我想将此数据帧传递给函数,并将该函数的结果写入某个目标。案例类JsonSchema(...

回答 1 投票 0

[sbt项目使用kafka进行流式传输

我陷入了下面的问题,我能够从Kafka主题中提取数据以引发数据流,但是当我将RDD流连接到Dataset [String]并转储结果数据(经过一些处理之后……)>

回答 1 投票 1

像数据帧一样动态生成数据集别名列

[可能是一个非常愚蠢的问题,但是对于:val ds3 = ds.groupBy($“ ip”).avg(“湿度”),目前尚不清楚如何对数据集而不是数据帧,如何重命名列使用别名on -...

回答 1 投票 0

Spark数据集:数据转换

我有一个火花数据集,其格式为-+ -------------- + -------- + ----- + |名称|类型|成本| + -------------- + -------- + ----- + | AAAAAAAAAAAAAA | XXXXX | 0.24 | | AAAAAAAAAAAAAA | YYYYY | 1.14 | | ...

回答 1 投票 0

如何创建对象集合的数据集?

我最近几个月一直在努力工作。其中数据集用作对象的分布式集合。我不必担心它的分布方式,而只担心基本的数据结构。我很好奇...

回答 1 投票 0

Scala Spark数据集更改类类型

我有一个数据帧,该数据帧是作为MyData1的架构创建的,然后我创建了一个列,以便新的数据帧遵循MyData2的架构。现在我想将新的数据帧作为数据集返回...

回答 2 投票 0

Spark驱动程序作为REST API

我们可以有一个充当Rest API的spark驱动程序吗?使用此Rest API(1个驱动程序),我可以即时(实时)启动多个执行程序。我的意思是,每当有新请求发出spark Driver(RestAPI)...

回答 1 投票 0

Pyspark:K表示模型拟合时的聚类错误

虽然运行K意味着使用pyspark进行聚类,但我正在使用以下代码行来找到最佳K值。但是在模型拟合线中会不断弹出一些错误。 ...

回答 1 投票 0

带有分组窗口的Spark窗口问题

我想在窗口上方填充聚合,其窗口的粒度与选择分组依据的粒度不同。使用Scala sql。选择c1,c2,c3,max(c4),max(c5),Max(c4)超过(分区c1,c2,c3),Avg(c5)超过(分区...

回答 1 投票 -1

预处理数据的最佳方法

我有具有以下模式person_id的数据| category_id |日期|类型每天收集的数据平均接近95GB。我的用例是为给定的...获取所有person_id ...

回答 1 投票 -1

将数据集中的嵌套json字符串转换为Spark Scala中的数据集/数据帧

我有一个简单的程序,其数据集的列的resource_serialized具有JSON字符串作为值,如下所示:import org.apache.spark.SparkConf对象TestApp {def main(args:Array [String]):...

回答 1 投票 0

火花数据帧比较并仅显示不同的值

我有两个要比较的数据框,正在使用,除了显示第一个数据集中存在的数据,第二个数据集中缺少数据。它的工作原理很好,我只想显示不同的值...

回答 1 投票 -1


spark scala将嵌套的数据框转换为嵌套的数据集

我有一个嵌套的数据框“ inputFlowRecordsAgg”,它具有以下架构根|-FlowI.key:字符串(nullable = true)|-FlowS.minFlowTime:long(nullable = true)|-FlowS.maxFlowTime:long( ...

回答 1 投票 0

Spark scala:java.lang.ClassCastException:java.lang.Integer无法转换为scala.collection.Seq

在以下代码中:def mapAppsToSparseVector(appFeatures:List [String],行:Row):SparseVector = {val vectorSize = appFeatures.length val索引= new ArrayBuffer [Int]()val值...

回答 1 投票 0

从Scala中其他2个数据集中的特定列创建新数据集

我下面有2个不同模式的数据集。 case class schema1(a:Double,b:Double)-> dataset1 case class schema2(c:Double,d:Double,e:Double,f:Double)-> dataset2我要创建...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.