apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化，同时提供类型安全的编程接口。

为什么KeyValueGroupedDataset的flatMapGroups在本地运行时给出错误的结果？

KeyValueGroupedDataset 的 flatMapGroups 在本地运行时似乎给出了错误的结果。在 Databricks 笔记本中运行相同的查询时，它会给出正确的结果。有吗

scala apache-spark apache-spark-dataset

回答 1 投票 0

根据spark中的列值分割数据集

我正在尝试根据制造商列内容将数据集拆分为不同的数据集。它很慢请建议一种改进代码的方法，以便它可以更快地执行并减少

java apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0

回答 3 投票 0

RDD.aggregate() 如何处理分区？

我是 Spark 的新手，并试图了解像reduce、aggregate 等函数是如何工作的。在执行 RDD.aggregate() 时，我尝试将 ZeroValue 更改为身份以外的其他内容（0 表示

apache-spark pyspark bigdata rdd apache-spark-dataset

回答 1 投票 0

如何在 Spark Scala 中进行类型安全数据集左连接

背景人们对 Spark 的数据集 API 实际上并没有提供完全类型安全的连接感到非常苦恼，但我很固执，所以我真的想尝试尽可能接近...

scala apache-spark apache-spark-dataset

回答 1 投票 0

Spark 2.0 隐式编码器，当类型为 Option[Seq[String]] (scala) 时处理缺失列

当我们的数据源中缺少某些 Option[Seq[String]] 类型的列时，我在编码数据时遇到一些问题。理想情况下，我希望缺失的列数据用 None 填充。

scala apache-spark apache-spark-dataset

回答 2 投票 0

如何通过Azure Databricks运行spark sql文件

我们有一个进程会将spark sql写入文件，这个进程在生产环境中会生成数千个spark sql文件。这些文件将在 ADLS Gen2 目录中创建。

apache-spark apache-spark-sql azure-databricks apache-spark-dataset databricks-sql

回答 1 投票 0

使用Cobrix和Java Spark程序解析cobol之类的文件

有人尝试过在java Spark程序中运行Cobrix吗？我在调用 Cobol 数据源时似乎遇到了一些类/版本不匹配的问题。我在 github 中有一个示例应用程序当我运行 Spark-...

java apache-spark apache-spark-dataset

回答 1 投票 0

使用 Spark/scala 将客户和帐户数据映射到案例类

所以我有一个案例类客户数据和一个案例类帐户数据如下：案例类客户数据（客户 ID：字符串，名字：字符串， ...

scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0

回答 1 投票 0

Spark Dataframe 与传统对象映射器

传统的对象映射器用于在典型用例中抽象代码和数据库。在我的场景中，我使用 Spark 从源读取数据并转换为数据帧。我的目标...

dataframe apache-spark objectmapper apache-spark-dataset

回答 1 投票 0

如何在pyspark中使用regexp_replace函数达到理想的结果？

假设数据是 - “哈立德国王医院”“”“NG”“”“” 长度（包括引号和空格）= 33 在上面的例子中：保留开始和结束...

dataframe pyspark regexp-replace apache-spark-dataset

回答 1 投票 0

使用spark读取镶木地板文件

我想使用spark读取parquet文件并一一处理每个文件的内容。我试图使用以下方法来实现它火花读取 .option("全文", "

scala apache-spark parquet clickhouse apache-spark-dataset

回答 1 投票 0

使用 scala 语法时，Spark 会读取过滤中的所有列

这段代码很好，它只读取第 i 列（注意最后一行 ReadSchema: struct，它只读取 i）：导入 org.apache.spark.sql.Dataset // 定义案例类案例类...

apache-spark apache-spark-dataset catalyst-optimizer frameless

回答 2 投票 0

Spark AQE 无法帮助数据集倾斜连接

我在 Spark 中面临一个问题，其中 2 个倾斜的数据集需要很长时间才能连接。其中一个（或两个）数据集包含倾斜数据，并将其用作连接列。所以我希望启用 Spark AQE ...

apache-spark apache-spark-sql dataset apache-spark-dataset skew

回答 1 投票 0

PySpark：在分组数据中查找特定值并将整个组标记为不同值

我有如下的员工数据。我想按 EMP_ID 对以下数据进行分组，如果该分组 EMP_ID 的“状态”值为“未完成”，则 EMP_ID 的整个“总体状态”应该为标记...

apache-spark pyspark apache-spark-sql aws-glue apache-spark-dataset

回答 1 投票 0

在 PySpark 的这段代码中将创建多少个作业、阶段、任务以及为什么

我有这个代码从 pyspark.sql.functions 导入 * df1=spark.read.option('header','true').csv('/FileStore/tables/ds_salaries.csv')\ `在此处输入代码`.withColumn('

apache-spark pyspark apache-spark-sql apache-spark-dataset

回答 1 投票 0

如何将dataframe中的空值填充到uuid？

有一个dataframe中的一列有空值（并非全部为空），需要用uuid填充空值，有办法吗？ cala> val df = Seq(("stuff2",null,null), ("stuff2",null,Array("

scala apache-spark apache-spark-sql apache-spark-dataset

回答 3 投票 0

spark dataframe 使用cast 时输出结果不正确

在使用spark dataframe时，当cast()函数被调用为decimal(38,16)时，结果，它计算的不是最多16位小数，而是最多14个字符，并填充其余的字符。 ..

sql apache-spark amazon-s3 apache-spark-dataset

回答 1 投票 0

随机分区配置对转换的影响有多大

基于随机分区配置的宽转换实际上是如何工作的？如果我有以下程序： Spark.conf.set("spark.sql.shuffle.partitions", "5") val df = ...

apache-spark apache-spark-dataset spark-shuffle

回答 1 投票 0

将 Spark 数据集列从 UDT 转换为数组<String>

我正在使用 Spark OrientDB 连接器来检索一些数据，如下所示：特点标题托尼·斯塔克 [“钢铁侠”] 詹姆斯·布坎南·巴恩斯 [《美国队长：Fi...

scala apache-spark apache-spark-sql orientdb apache-spark-dataset

回答 0 投票 0

Spark groupByKey 无法解释已知字段的 lambda 函数

我有两个数据集 ds1 和 ds2，它们具有以下各自的架构：地址DS: > 地址DS.printSchema() 根 |-- endId: 字符串 (nullable = true) |-- parentId: string (nullable = true...

scala apache-spark join group-by apache-spark-dataset

回答 0 投票 0

apache-spark-dataset 相关问题

最新问题