apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

迭代Spark数据集的行并在Java API中应用操作

Spark(2.4.x)的新功能,并且使用Java API(不是Scala !!!),我有一个从CSV文件读取的数据集。它具有如下所示的架构(命名列):id(整数)|名称(字符串)|颜色(...

回答 1 投票 0

Spark:对象不可序列化

我有一个批处理作业,我尝试将其转换为结构化流。我收到以下错误:20/03/31 15:09:23错误执行程序:阶段0.0(TID 0)java.io ....]中任务0.0中的异常。

回答 1 投票 1

将数据集转换为红色时,任务无法序列化的异常

我有如下所示的DataSet:dataset.show(10)|功能| + ----------- + | [14.378858] | | [14.388442] | | [14.384361] | | [14.386358] | | [14.390068] | | [14.423256] | | [14.425567] | | [14.434074] | | [...] >>

回答 1 投票 1

Spark:地图组和展平数组

我具有以下结构的数据集|年| id |数据| min_week | max_week || | 2017 | 1 | [32,21,34] | 1 | 3 || | 2017 | 2 | [132,121,134] | 1 | 3 || | 2018 | ...

回答 1 投票 0

Spark Dataset mapGroups操作后的值类型为二进制,甚至在函数中返回String

环境:Spark版本:2.3.0运行模式:本地Java版本:Java 8 spark应用程序尝试执行以下操作1)将输入数据转换为数据集[GenericRecord] 2)通过键进行分组...

回答 1 投票 -1


处理每一行以获取日期

我有一个使用year和mon01,mon02提取月份的文件,它们分别使用columname中的最后两个字符(即MON01-01)在各个月中的文本值长度(MON01,MON02 ..)与...的数目相同。

回答 2 投票 -2

如何创建[(行,行)]的数据集

我有一个接受Dataset [(Row,Row)]的函数,我正在尝试测试此功能,但是我不确定我如何创建一个具有Dataset [(Row,Row)]的数据集。尝试了以下内容,但是...

回答 1 投票 0

Spark BinaryType转换为Scala / Java

我正在使用带有以下数据的scala做一个spark应用:+ ---------- + -------------------- + | id |数据| + ---------- + -------------------- + | id1 | [AC ED 00 05 73 7 ... | | id2 ...

回答 1 投票 0

将Spark数据帧[行]转换为Map [String,Any]

[有什么方法可以将Spark数据框转换为数据集[Map [String,Any]],以便一旦将其转换为Map后,就可以在该行上执行地图端作业操作。文件的模式主要是易变的...

回答 1 投票 1

Mongo Spark Java连接器分组者

我正在从客户端移动应用程序在我的服务器上存储事件,事件存储为mongodb。我有mongo-spark连接器,可获取这些事件的列表,并应使用rest api显示它们。它...

回答 1 投票 0

是否有一种方法可以在Spark中通过一次计算写入两个数据集输出

我有一个火花作业,它读取dataFrame中的输入文件,进行一些计算,并生成两个经过处理和过滤的输出。数据集 输入= sparkSession.read()。parquet(inputPath); ...

回答 2 投票 1

如何使用火花统计?

我正在使用spark-sql-2.4.1v,并且我试图在给定数据的每一列上找到分位数,即百分位数0,百分位数25等。当我在做多个百分位数时,如何检索每个...

回答 1 投票 0

如何使用spark statsroxQuantile函数?

我正在使用spark-sql-2.4.1v,并且我试图在给定数据的每一列上找到分位数,即百分位数0,百分位数25等。当我在做多个百分位数时,如何检索每个...

回答 1 投票 1

如何使用火花统计功能

我使用spark-sql-2.4.1v,我正在尝试在给定数据的每一列上找到分位数,即precentile 0,precentile 25等。当我做多个precentiles时,如何检索每个...

回答 1 投票 0

[在Scala中使用joinWith时如何仅返回左侧

所以我有以下内容,而我尝试使用joinWith,而我只想在左侧进行操作,然后我想在该DataFrame上运行一个函数,我正在执行以下操作,但它不起作用val。 ..

回答 1 投票 0

如何测试返回Dataset [String,T]的函数

你好,我有以下函数返回一个数据集[(String,SubsidiariesImpactedStage)]:def reduceSubsidiaries(dsSubsidiaries:Dataset [SubsidiariesImpactedStage]):Dataset [(String,...

回答 1 投票 -1

为什么创建自定义案例类的数据集时“为什么找不到用于存储在数据集中的类型的编码器?

Spark 2.0(最终版)与Scala 2.11.8。以下超级简单代码产生编译错误Error:(17,45)无法找到存储在数据集中的类型的编码器。基本类型(Int,String等)...

回答 3 投票 53

使用自己的方法修改Spark中数据集的var类型

以下是我面临的问题的最小示例。我有一个要修改的数组,因为它有大约一百万个元素。以下代码有效,除了最后一个...

回答 1 投票 0

Spark数据集方法是否会序列化计算本身?

我有一个包含多列的数据集。需要调用一个函数以使用一行中可用的数据来计算结果。因此,我将案例类与方法结合使用,并使用该案例创建了数据集。 ...

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.