apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化，同时提供类型安全的编程接口。

在 Jupyter 实验室中导入 VectorAssembler 时出错 - 对于 Pyspark

我正在运行这个导入语句从 pyspark.ml.feature 导入 VectorAssembler 这是完整的回溯： ModuleNotFoundError Traceback（最近一次调用最后一次）细胞我...

apache-spark pyspark jupyter-lab apache-spark-dataset apache-spark-ml

回答 1 投票 0

为什么Spark的explode函数比平面地图函数分割数组慢很多？

我是 Spark 和 Spark SQL 的新手。我有一个包含 2 列的数据集，“col1”和“col2”，“col2”最初是一个长整型序列。我想将“col2”分解为多行，以便每一行只有一个...

apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

Spark的Row和InternalRow类型的区别

目前Spark对于Row有两种实现：导入 org.apache.spark.sql.Row 导入 org.apache.spark.sql.catalyst.InternalRow 两者都需要有什么必要？它们代表的是同一个吗

apache-spark apache-spark-sql apache-spark-dataset

回答 2 投票 0

Spark 3.5 中的 RowEncoder.apply(schema).resolveAndBind() 和 Row/InternalRow 序列化器/反序列化器等效项

我们在 Spark 3.1 中使用 RowEncoder.apply(schema).resolveAndBind() 来创建 ExpressionEncoder[row] 并从中创建序列化器和反序列化器。 val 编码器 = Encoders.row(schema).resolveAndBind() ...

scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-encoders

回答 1 投票 0

Spark Dataframe na.fill 用于嵌套列

我正在尝试为 Spark 中具有空值的嵌套列设置默认值，但看起来 DataFrameNaFunctions.fill 函数不适用于嵌套列。导入spark.implicits._ ...

scala apache-spark apache-spark-dataset

回答 1 投票 0

行类型 Spark 数据集的编码器

我想为 DataSet 中的 Row 类型编写一个编码器，用于我正在执行的映射操作。本质上，我不明白如何编写编码器。下面是一个地图操作的例子：在...

java apache-spark apache-spark-sql apache-spark-dataset apache-spark-encoders

回答 3 投票 0

关于数据集/数据框mapPartitions迭代器的问题

我正在使用 Scala 2.12 运行 Spark 3.5.0，并且有一个关于 mapPartition 的问题。我正在 mapPartitions 内创建一个可变列表，并在迭代器内插入项目。当我尝试获得...

scala apache-spark apache-spark-dataset

回答 1 投票 0

用于单元测试的 deltalake scala api

我能够使 deltalake 在本地工作以进行单元测试数据+spark 应用程序逻辑。 def readDeltaLake(路径: String)(隐式 sc: SparkSession): DataFrame = 读取 .format(&quo...

scala apache-spark delta-lake apache-spark-dataset

回答 1 投票 0

将 ADT/密封特征层次结构编码到 Spark DataSet 列中

如果我想在 Spark DataSet 列中存储代数数据类型 (ADT)（即 Scala 密封特征层次结构），最佳编码策略是什么？例如，如果我有一个 ADT，其中叶子...

scala apache-spark apache-spark-dataset apache-spark-encoders

回答 3 投票 0

为什么KeyValueGroupedDataset的flatMapGroups在本地运行时给出错误的结果？

KeyValueGroupedDataset 的 flatMapGroups 在本地运行时似乎给出了错误的结果。在 Databricks 笔记本中运行相同的查询时，它会给出正确的结果。有吗

scala apache-spark apache-spark-dataset

回答 1 投票 0

根据spark中的列值分割数据集

我正在尝试根据制造商列内容将数据集拆分为不同的数据集。它很慢请建议一种改进代码的方法，以便它可以更快地执行并减少

java apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0

回答 3 投票 0

RDD.aggregate() 如何处理分区？

我是 Spark 的新手，并试图了解像reduce、aggregate 等函数是如何工作的。在执行 RDD.aggregate() 时，我尝试将 ZeroValue 更改为身份以外的其他内容（0 表示

apache-spark pyspark bigdata rdd apache-spark-dataset

回答 1 投票 0

如何在 Spark Scala 中进行类型安全数据集左连接

背景人们对 Spark 的数据集 API 实际上并没有提供完全类型安全的连接感到非常苦恼，但我很固执，所以我真的想尝试尽可能接近...

scala apache-spark apache-spark-dataset

回答 1 投票 0

Spark 2.0 隐式编码器，当类型为 Option[Seq[String]] (scala) 时处理缺失列

当我们的数据源中缺少某些 Option[Seq[String]] 类型的列时，我在编码数据时遇到一些问题。理想情况下，我希望缺失的列数据用 None 填充。

scala apache-spark apache-spark-dataset

回答 2 投票 0

如何通过Azure Databricks运行spark sql文件

我们有一个进程会将spark sql写入文件，这个进程在生产环境中会生成数千个spark sql文件。这些文件将在 ADLS Gen2 目录中创建。

apache-spark apache-spark-sql azure-databricks apache-spark-dataset databricks-sql

回答 1 投票 0

使用Cobrix和Java Spark程序解析cobol之类的文件

有人尝试过在java Spark程序中运行Cobrix吗？我在调用 Cobol 数据源时似乎遇到了一些类/版本不匹配的问题。我在 github 中有一个示例应用程序当我运行 Spark-...

java apache-spark apache-spark-dataset

回答 1 投票 0

使用 Spark/scala 将客户和帐户数据映射到案例类

所以我有一个案例类客户数据和一个案例类帐户数据如下：案例类客户数据（客户 ID：字符串，名字：字符串， ...

scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0

回答 1 投票 0

Spark Dataframe 与传统对象映射器

传统的对象映射器用于在典型用例中抽象代码和数据库。在我的场景中，我使用 Spark 从源读取数据并转换为数据帧。我的目标...

dataframe apache-spark objectmapper apache-spark-dataset

回答 1 投票 0

如何在pyspark中使用regexp_replace函数达到理想的结果？

假设数据是 - “哈立德国王医院”“”“NG”“”“” 长度（包括引号和空格）= 33 在上面的例子中：保留开始和结束...

dataframe pyspark regexp-replace apache-spark-dataset

回答 1 投票 0

使用spark读取镶木地板文件

我想使用spark读取parquet文件并一一处理每个文件的内容。我试图使用以下方法来实现它火花读取 .option("全文", "

scala apache-spark parquet clickhouse apache-spark-dataset

回答 1 投票 0

apache-spark-dataset 相关问题

最新问题