apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

为什么 Pandas 库未在 Azure Synapse Spark 池中使用 Blob 存储读取更新的 Excel 文件?

主题:当 Synapse Notebook Karnel 运行时,pd.ExcelFile() 不会从 Blob 存储读取 Synapse Spark 池中更新的 Excel 文件。 我在 Azure Sy 中读取更新的 Excel 文件时遇到问题...

回答 1 投票 0

有没有办法为 Spark DataFrame 指定模式,同时允许添加新字段?

我有 JSON 格式的数据。有时,数据中可能会缺少一些必需的列。我正在使用架构来提供 JSON 的结构。这修复了嵌套结构中丢失的字段...

回答 1 投票 0

如何在Spark中不读取输出表的情况下查看DataFrameWriter save()的最终写入结果?

现在我使用Scala + Spark将我的DataFrame: df写入KustoCluster,我刚刚发现DataFrameWriter.save()没有回调选项,这是我的代码 var writer = df.wr...

回答 1 投票 0

如何计算Spark作业中的核心数、执行器数、内存量

有人可以帮我找到 Spark 中的核心数、执行器数、内存数等。 我正在使用开源 apache Spark 集群 以下是我的配置 - 总共 6 个节点(1 个主节点和 5 个从节点)。 3...

回答 1 投票 0

使用 Spark Mongo 连接器从 Mongo 读取数据时如何删除或跳过不匹配的数据类型

我正在尝试使用 Spark Mongo 连接器从 Mongo 读取数据,尝试加载 100M+ 行。 有谁知道如果使用预定义架构存在数据类型不匹配,我如何忽略行?有一些

回答 1 投票 0

将多个分区规范写入 Apache Iceberg 表

我想编写一个具有与默认表设置不同的分区规范的 Iceberg 表,以便当我运行数据压缩时,数据将根据默认规范进行压缩(如

回答 1 投票 0

Spark Databricks:流-流 LeftOuter Join 返回空结果

Databricks,带有 Delta Live Tables,Spark 3.4 我有一个包含一些记录的流数据帧(我们称之为“原始”)。然后我根据一些条件过滤这个表,修改一些

回答 1 投票 0

如何快速遍历Iceberg中一张非常大的表

我有一个关于查询大表的问题。 我们有一个 Hive 表,总共有 360 万条记录,每条记录有 120 个字段。我们想将该表中的所有记录传输到其他数据库...

回答 1 投票 0

如何将 Azure SQL Server 列数据类型长度迁移到支持的 Spark SQL

我们正在尝试将azure SQL迁移到spark支持的SQL,但迁移SQL视图时存在差异,存在列数据类型长度与spark SQL不匹配,因此我们的SAS报告...

回答 1 投票 0

如何将数组的字符串表示形式转换为 pyspark 中的实际数组类型

我有一个列,其中的数据以数组的字符串表示形式输入 我尝试将其类型转换为数组类型,但数据正在被修改。 我也尝试使用正则表达式来删除 e...

回答 1 投票 0

组合 n 个 Pyspark 数据帧的最有效方法

我有一个特定的函数需要使用这个基本结构进行优化: 列出 customer_dfs = [] 对于 customer_list 中的客户 df = // Pyspark 转换函数 {10-15 行

回答 1 投票 0

有状态 Spark Streaming 的 SST 文件数量无限增长

我们正在 Databricks 上运行一个非常简单的 Apache Spark Streaming 应用程序。它使用来自 Apache Kafka 的消息,基于 1 小时水印进行重复数据删除,并写入输出...

回答 1 投票 0

在 Windows 上使用 bitnami docker compose 运行 Spark 作业时出错

我正在尝试使用 Bitnami 官方 docker compose 向 Spark 集群提交作业: https://github.com/bitnami/containers/blob/main/bitnami/spark/docker-compose.yml 唯一的例外是...

回答 1 投票 0

如何从Spark UDF返回Row?

我有一个用例,我想向 Map 对象添加另一个条目。设置如下(使用 Scala 2.13.13 + Spark 3.3.1): val json = ”“” [ { ...

回答 1 投票 0

启用 kerberos 时是否可以禁用 Hadoop 纱线 PTR 检查?

我们有一个hadoop集群,当前在公共IP上运行。我们想要将集群 IP 更改为私有 IP 地址。所以它不能从互联网路由。但主要问题是当...

回答 1 投票 0

根据spark中的列值分割数据集

我正在尝试根据制造商列内容将数据集拆分为不同的数据集。它很慢请建议一种改进代码的方法,以便它可以更快地执行并减少

回答 3 投票 0

有没有办法在不使用collect()的情况下将数据帧值收集为列表

我面临着如何在不使用收集方法的情况下有效过滤 Spark DataFrame 的挑战,这可能会导致大型数据集上的性能问题。具体来说,我需要过滤

回答 1 投票 0

集群 Spark 在未授予 Notebook 数据访问权限的情况下无法通过 Notebook 写入 _delta_log?

TLDR:为什么我的 Spark 集群无法完成对 Delta 表的写入,除非我的 Jupyter Notebook 能够访问数据位置,这与我对 Spark 应该处理写入的预期相反

回答 1 投票 0

Maven 不会将依赖项下载到文件夹

我正在尝试让 mvn 将 Delta Lake 下载到某个目录,以便我可以手动将其挂载到 Spark 中。这样 Spark 应用程序就不必出于安全目的向 mvn 发出 Web 请求,想法...

回答 1 投票 0

循环遍历列列表并丰富数据集

我有一个数据集,我想迭代列列表并使用两个新列(状态和消息)丰富数据集。 如果任何行、任何列为空,则状态应设置为 F...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.