apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

Spark groupByKey 无法解释已知字段的 lambda 函数

我有两个数据集 ds1 和 ds2,它们具有以下各自的架构: 地址DS: > 地址DS.printSchema() 根 |-- endId: 字符串 (nullable = true) |-- parentId: string (nullable = true...

回答 0 投票 0

Dataset Scala Spark:如果列表中存在列值,如何过滤数据集

我正在尝试过滤数据集以查看名字列中的任何名称是否与给定的名称列表相匹配。 我有一个包含名字和姓氏的数据集“A”,并且想要输入 l...

回答 1 投票 0

Spark 3.2.4 数据集 ClassCastException

我使用的是 Spark 3.2.4,但数据集存在以下问题。 我有一个名为 data 的 DataFrame,我正在使用案例类将其转换为 DataSet。 案例类日志(事件时间:选项[String] = ...

回答 0 投票 0

解构 Spark SQL 数据集<Row> 回到其单独的 StructFields/列

Java 11 和 Spark SQL 2.13:3.3.2 在这里。请注意:我正在使用 Java API 并对它感兴趣,希望得到 Java 答案,但我可能可以破译基于 Scala/Python 的答案并执行 nec...

回答 1 投票 0

UDF函数为数组<Struct>类型格式化日期字段并返回格式化数据

我想编写一个通用的 udf 函数,它将输入作为数组列并检查所有时间戳字段。将时间戳字段格式化为 UTC,然后按格式返回数组

回答 0 投票 0

如何获取/构建 JavaRDD[DataSet]?

当我使用 deeplearning4j 并尝试在 Spark 中训练模型时 公共多层网络拟合(JavaRDD 训练数据) fit() 需要一个 JavaRDD 参数, 我试着像这样建造 总价值...

回答 2 投票 0

writeStream()在批次数据中打印空值,即使我在kafka中通过writeStream()提供适当的json数据。

我试图使用模式转换json,并将值打印到控制台,但writeStream()在所有列中打印空值,即使我给了适当的数据。数据我给kafka主题...{"股票":。

回答 1 投票 0

避免在nullSafeJoin后出现重复的coulms

我有一个用例,在这个用例中,我需要连接可为空的列,我是这样做的: def nullSafeJoin(leftDF: DataFrame, rightDF: DataFrame, joinOnColumns: Seq[String]) = { val dataset1 = 。我是这样做的: def nullSafeJoin(leftDF: DataFrame, rightDF: DataFrame, joinOnColumns: Seq[String]) = { val dataset1 = ...。

回答 1 投票 0

如何使用spark-java api的MapFunction和ReduceFunction在集群上并行处理?

我使用spark-sql-2.4.1v和java8。必须使用java api在各种条件下使用group by做一个复杂的计算,即使用MapFunction和ReduceFunction。场景:有源数据...

回答 1 投票 -5

Spark数据集map(identity)在Scala上不可序列化。

我有一个数据框架,里面有很多列,但我只需要其中的几列。我创建了一个case类来模拟所述的数据框架,希望未声明的列会被删除,但这......

回答 1 投票 -1

scala spark数据框架修改列的udf返回值。

我有一个火花数据帧,其中有一个时间戳字段,我想将其转换为长数据类型。我使用了一个UDF和独立的代码工作正常,但当我插入到一个通用的逻辑,任何... ...

回答 1 投票 0

在spark中,RDD、Dataframe、Dataset中哪个更好地进行avro列式操作?

我们有一个用例,我们需要在avro数据集上进行一些列式转换。我们以前一直到现在都在运行MR作业,现在想探索spark。我正在浏览一些教程,但不确定......

回答 1 投票 0

FileNotFoundException: Spark保存失败。无法从Dataset[T] avro中清除缓存。

当我第二次在avro中保存一个数据帧时,我得到了以下错误。如果我在保存后删除sub_folderpart-00000-XXX-c000.avro,然后尝试保存相同的数据集,我得到了以下结果。...

回答 1 投票 0

在spark数据集中连接两个聚类表,似乎最终会出现完全洗牌的情况。

我有两个蜂巢集群表t1和t2 CREATE EXTERNAL TABLE `t1`( `t1_req_id` string, ... PARTITIONED BY (`t1_stats_date` string) CLUSTERED BY (t1_req_id) INTO 1000 BUCKETS / t2看起来... ...

回答 1 投票 1

如何在Java中创建对象集合Spark Dataset?

我从过去几个月开始研究火花。其中Dataset是作为分布式对象的集合。我并不担心它是如何分布的,而是一个基本的数据结构。我很好奇...

回答 1 投票 0

Spark Dataset -聚合查询BigInt的总和为零。

我有一个ExpenseEntry类型的数据集。ExpenseEntry是一个基本的数据结构,用来跟踪每个类别的花费金额 case class ExpenseEntry( name: String, category: String, amount: ...

回答 1 投票 0

spark在S3上的分区内创建分区

我有下面的标签分隔的示例数据集:col1期col3col4col5col6col7col8col9col10col11col12col13col14col15col16col17col18col19col20col21col22 ASSDF 202001 A B ....

回答 1 投票 2

大数据(spark sql和spark dataframes连接)

我是大数据平台的新手。请你让我知道不同的方式。1)我们如何连接到Spark sql的火花?2)我们如何连接到spark数据框或数据集的sparrk? 对于hive,我们...

回答 1 投票 0

将Spark结构化的流数据帧传递给函数

我从源卡夫卡读取了火花结构化的流数据帧。我想将此数据帧传递给函数,并将该函数的结果写入某个目标。案例类JsonSchema(...

回答 1 投票 0

[sbt项目使用kafka进行流式传输

我陷入了下面的问题,我能够从Kafka主题中提取数据以引发数据流,但是当我将RDD流连接到Dataset [String]并转储结果数据(经过一些处理之后……)>

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.