apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

为什么KeyValueGroupedDataset的flatMapGroups在本地运行时给出错误的结果?

KeyValueGroupedDataset 的 flatMapGroups 在本地运行时似乎给出了错误的结果。在 Databricks 笔记本中运行相同的查询时,它会给出正确的结果。有吗

回答 1 投票 0

根据spark中的列值分割数据集

我正在尝试根据制造商列内容将数据集拆分为不同的数据集。它很慢请建议一种改进代码的方法,以便它可以更快地执行并减少

回答 3 投票 0

RDD.aggregate() 如何处理分区?

我是 Spark 的新手,并试图了解像reduce、aggregate 等函数是如何工作的。 在执行 RDD.aggregate() 时,我尝试将 ZeroValue 更改为身份以外的其他内容(0 表示

回答 1 投票 0

如何在 Spark Scala 中进行类型安全数据集左连接

背景 人们对 Spark 的数据集 API 实际上并没有提供完全类型安全的连接感到非常苦恼,但我很固执,所以我真的想尝试尽可能接近...

回答 1 投票 0

Spark 2.0 隐式编码器,当类型为 Option[Seq[String]] (scala) 时处理缺失列

当我们的数据源中缺少某些 Option[Seq[String]] 类型的列时,我在编码数据时遇到一些问题。理想情况下,我希望缺失的列数据用 None 填充。

回答 2 投票 0

如何通过Azure Databricks运行spark sql文件

我们有一个进程会将spark sql写入文件,这个进程在生产环境中会生成数千个spark sql文件。 这些文件将在 ADLS Gen2 目录中创建。

回答 1 投票 0

使用Cobrix和Java Spark程序解析cobol之类的文件

有人尝试过在java Spark程序中运行Cobrix吗?我在调用 Cobol 数据源时似乎遇到了一些类/版本不匹配的问题。我在 github 中有一个示例应用程序 当我运行 Spark-...

回答 1 投票 0

使用 Spark/scala 将客户和帐户数据映射到案例类

所以我有一个案例类客户数据和一个案例类帐户数据如下: 案例类客户数据( 客户 ID:字符串, 名字:字符串, ...

回答 1 投票 0

Spark Dataframe 与传统对象映射器

传统的对象映射器用于在典型用例中抽象代码和数据库。在我的场景中,我使用 Spark 从源读取数据并转换为数据帧。我的目标...

回答 1 投票 0

如何在pyspark中使用regexp_replace函数达到理想的结果?

假设数据是 - “哈立德国王医院”“”“NG”“”“” 长度(包括引号和空格)= 33 在上面的例子中: 保留开始和结束...

回答 1 投票 0

使用spark读取镶木地板文件

我想使用spark读取parquet文件并一一处理每个文件的内容。 我试图使用以下方法来实现它 火花读取 .option("全文", "

回答 1 投票 0

使用 scala 语法时,Spark 会读取过滤中的所有列

这段代码很好,它只读取第 i 列(注意最后一行 ReadSchema: struct,它只读取 i): 导入 org.apache.spark.sql.Dataset // 定义案例类 案例类...

回答 2 投票 0

Spark AQE 无法帮助数据集倾斜连接

我在 Spark 中面临一个问题,其中 2 个倾斜的数据集需要很长时间才能连接。其中一个(或两个)数据集包含倾斜数据,并将其用作连接列。 所以我希望启用 Spark AQE ...

回答 1 投票 0

PySpark:在分组数据中查找特定值并将整个组标记为不同值

我有如下的员工数据。我想按 EMP_ID 对以下数据进行分组,如果该分组 EMP_ID 的“状态”值为“未完成”,则 EMP_ID 的整个“总体状态”应该为标记...

回答 1 投票 0

在 PySpark 的这段代码中将创建多少个作业、阶段、任务以及为什么

我有这个代码 从 pyspark.sql.functions 导入 * df1=spark.read.option('header','true').csv('/FileStore/tables/ds_salaries.csv')\ `在此处输入代码`.withColumn('

回答 1 投票 0

如何将dataframe中的空值填充到uuid?

有一个dataframe中的一列有空值(并非全部为空),需要用uuid填充空值,有办法吗? cala> val df = Seq(("stuff2",null,null), ("stuff2",null,Array("

回答 3 投票 0

spark dataframe 使用cast 时输出结果不正确

在使用spark dataframe时,当cast()函数被调用为decimal(38,16)时,结果,它计算的不是最多16位小数,而是最多14个字符,并填充其余的字符。 ..

回答 1 投票 0

随机分区配置对转换的影响有多大

基于随机分区配置的宽转换实际上是如何工作的? 如果我有以下程序: Spark.conf.set("spark.sql.shuffle.partitions", "5") val df = ...

回答 1 投票 0

将 Spark 数据集列从 UDT 转换为数组<String>

我正在使用 Spark OrientDB 连接器来检索一些数据,如下所示: 特点 标题 托尼·斯塔克 [“钢铁侠”] 詹姆斯·布坎南·巴恩斯 [《美国队长:Fi...

回答 0 投票 0

Spark groupByKey 无法解释已知字段的 lambda 函数

我有两个数据集 ds1 和 ds2,它们具有以下各自的架构: 地址DS: > 地址DS.printSchema() 根 |-- endId: 字符串 (nullable = true) |-- parentId: string (nullable = true...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.