apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

在 Jupyter 实验室中导入 VectorAssembler 时出错 - 对于 Pyspark

我正在运行这个导入语句 从 pyspark.ml.feature 导入 VectorAssembler 这是完整的回溯: ModuleNotFoundError Traceback(最近一次调用最后一次) 细胞我...

回答 1 投票 0

为什么Spark的explode函数比平面地图函数分割数组慢很多?

我是 Spark 和 Spark SQL 的新手。我有一个包含 2 列的数据集,“col1”和“col2”,“col2”最初是一个长整型序列。我想将“col2”分解为多行,以便每一行只有一个...

回答 1 投票 0

Spark的Row和InternalRow类型的区别

目前Spark对于Row有两种实现: 导入 org.apache.spark.sql.Row 导入 org.apache.spark.sql.catalyst.InternalRow 两者都需要有什么必要?它们代表的是同一个吗

回答 2 投票 0

Spark 3.5 中的 RowEncoder.apply(schema).resolveAndBind() 和 Row/InternalRow 序列化器/反序列化器等效项

我们在 Spark 3.1 中使用 RowEncoder.apply(schema).resolveAndBind() 来创建 ExpressionEncoder[row] 并从中创建序列化器和反序列化器。 val 编码器 = Encoders.row(schema).resolveAndBind() ...

回答 1 投票 0

Spark Dataframe na.fill 用于嵌套列

我正在尝试为 Spark 中具有空值的嵌套列设置默认值,但看起来 DataFrameNaFunctions.fill 函数不适用于嵌套列。 导入spark.implicits._ ...

回答 1 投票 0

行类型 Spark 数据集的编码器

我想为 DataSet 中的 Row 类型编写一个编码器,用于我正在执行的映射操作。本质上,我不明白如何编写编码器。 下面是一个地图操作的例子: 在...

回答 3 投票 0

关于数据集/数据框mapPartitions迭代器的问题

我正在使用 Scala 2.12 运行 Spark 3.5.0,并且有一个关于 mapPartition 的问题。我正在 mapPartitions 内创建一个可变列表,并在迭代器内插入项目。当我尝试获得...

回答 1 投票 0

用于单元测试的 deltalake scala api

我能够使 deltalake 在本地工作以进行单元测试数据+spark 应用程序逻辑。 def readDeltaLake(路径: String)(隐式 sc: SparkSession): DataFrame = 读取 .format(&quo...

回答 1 投票 0

将 ADT/密封特征层次结构编码到 Spark DataSet 列中

如果我想在 Spark DataSet 列中存储代数数据类型 (ADT)(即 Scala 密封特征层次结构),最佳编码策略是什么? 例如,如果我有一个 ADT,其中叶子...

回答 3 投票 0

为什么KeyValueGroupedDataset的flatMapGroups在本地运行时给出错误的结果?

KeyValueGroupedDataset 的 flatMapGroups 在本地运行时似乎给出了错误的结果。在 Databricks 笔记本中运行相同的查询时,它会给出正确的结果。有吗

回答 1 投票 0

根据spark中的列值分割数据集

我正在尝试根据制造商列内容将数据集拆分为不同的数据集。它很慢请建议一种改进代码的方法,以便它可以更快地执行并减少

回答 3 投票 0

RDD.aggregate() 如何处理分区?

我是 Spark 的新手,并试图了解像reduce、aggregate 等函数是如何工作的。 在执行 RDD.aggregate() 时,我尝试将 ZeroValue 更改为身份以外的其他内容(0 表示

回答 1 投票 0

如何在 Spark Scala 中进行类型安全数据集左连接

背景 人们对 Spark 的数据集 API 实际上并没有提供完全类型安全的连接感到非常苦恼,但我很固执,所以我真的想尝试尽可能接近...

回答 1 投票 0

Spark 2.0 隐式编码器,当类型为 Option[Seq[String]] (scala) 时处理缺失列

当我们的数据源中缺少某些 Option[Seq[String]] 类型的列时,我在编码数据时遇到一些问题。理想情况下,我希望缺失的列数据用 None 填充。

回答 2 投票 0

如何通过Azure Databricks运行spark sql文件

我们有一个进程会将spark sql写入文件,这个进程在生产环境中会生成数千个spark sql文件。 这些文件将在 ADLS Gen2 目录中创建。

回答 1 投票 0

使用Cobrix和Java Spark程序解析cobol之类的文件

有人尝试过在java Spark程序中运行Cobrix吗?我在调用 Cobol 数据源时似乎遇到了一些类/版本不匹配的问题。我在 github 中有一个示例应用程序 当我运行 Spark-...

回答 1 投票 0

使用 Spark/scala 将客户和帐户数据映射到案例类

所以我有一个案例类客户数据和一个案例类帐户数据如下: 案例类客户数据( 客户 ID:字符串, 名字:字符串, ...

回答 1 投票 0

Spark Dataframe 与传统对象映射器

传统的对象映射器用于在典型用例中抽象代码和数据库。在我的场景中,我使用 Spark 从源读取数据并转换为数据帧。我的目标...

回答 1 投票 0

如何在pyspark中使用regexp_replace函数达到理想的结果?

假设数据是 - “哈立德国王医院”“”“NG”“”“” 长度(包括引号和空格)= 33 在上面的例子中: 保留开始和结束...

回答 1 投票 0

使用spark读取镶木地板文件

我想使用spark读取parquet文件并一一处理每个文件的内容。 我试图使用以下方法来实现它 火花读取 .option("全文", "

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.