Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
为什么 Pandas 库未在 Azure Synapse Spark 池中使用 Blob 存储读取更新的 Excel 文件?
主题:当 Synapse Notebook Karnel 运行时,pd.ExcelFile() 不会从 Blob 存储读取 Synapse Spark 池中更新的 Excel 文件。 我在 Azure Sy 中读取更新的 Excel 文件时遇到问题...
有没有办法为 Spark DataFrame 指定模式,同时允许添加新字段?
我有 JSON 格式的数据。有时,数据中可能会缺少一些必需的列。我正在使用架构来提供 JSON 的结构。这修复了嵌套结构中丢失的字段...
如何在Spark中不读取输出表的情况下查看DataFrameWriter save()的最终写入结果?
现在我使用Scala + Spark将我的DataFrame: df写入KustoCluster,我刚刚发现DataFrameWriter.save()没有回调选项,这是我的代码 var writer = df.wr...
有人可以帮我找到 Spark 中的核心数、执行器数、内存数等。 我正在使用开源 apache Spark 集群 以下是我的配置 - 总共 6 个节点(1 个主节点和 5 个从节点)。 3...
使用 Spark Mongo 连接器从 Mongo 读取数据时如何删除或跳过不匹配的数据类型
我正在尝试使用 Spark Mongo 连接器从 Mongo 读取数据,尝试加载 100M+ 行。 有谁知道如果使用预定义架构存在数据类型不匹配,我如何忽略行?有一些
我想编写一个具有与默认表设置不同的分区规范的 Iceberg 表,以便当我运行数据压缩时,数据将根据默认规范进行压缩(如
Spark Databricks:流-流 LeftOuter Join 返回空结果
Databricks,带有 Delta Live Tables,Spark 3.4 我有一个包含一些记录的流数据帧(我们称之为“原始”)。然后我根据一些条件过滤这个表,修改一些
我有一个关于查询大表的问题。 我们有一个 Hive 表,总共有 360 万条记录,每条记录有 120 个字段。我们想将该表中的所有记录传输到其他数据库...
如何将 Azure SQL Server 列数据类型长度迁移到支持的 Spark SQL
我们正在尝试将azure SQL迁移到spark支持的SQL,但迁移SQL视图时存在差异,存在列数据类型长度与spark SQL不匹配,因此我们的SAS报告...
如何将数组的字符串表示形式转换为 pyspark 中的实际数组类型
我有一个列,其中的数据以数组的字符串表示形式输入 我尝试将其类型转换为数组类型,但数据正在被修改。 我也尝试使用正则表达式来删除 e...
我有一个特定的函数需要使用这个基本结构进行优化: 列出 customer_dfs = [] 对于 customer_list 中的客户 df = // Pyspark 转换函数 {10-15 行
有状态 Spark Streaming 的 SST 文件数量无限增长
我们正在 Databricks 上运行一个非常简单的 Apache Spark Streaming 应用程序。它使用来自 Apache Kafka 的消息,基于 1 小时水印进行重复数据删除,并写入输出...
在 Windows 上使用 bitnami docker compose 运行 Spark 作业时出错
我正在尝试使用 Bitnami 官方 docker compose 向 Spark 集群提交作业: https://github.com/bitnami/containers/blob/main/bitnami/spark/docker-compose.yml 唯一的例外是...
我有一个用例,我想向 Map 对象添加另一个条目。设置如下(使用 Scala 2.13.13 + Spark 3.3.1): val json = ”“” [ { ...
启用 kerberos 时是否可以禁用 Hadoop 纱线 PTR 检查?
我们有一个hadoop集群,当前在公共IP上运行。我们想要将集群 IP 更改为私有 IP 地址。所以它不能从互联网路由。但主要问题是当...
我正在尝试根据制造商列内容将数据集拆分为不同的数据集。它很慢请建议一种改进代码的方法,以便它可以更快地执行并减少
有没有办法在不使用collect()的情况下将数据帧值收集为列表
我面临着如何在不使用收集方法的情况下有效过滤 Spark DataFrame 的挑战,这可能会导致大型数据集上的性能问题。具体来说,我需要过滤
集群 Spark 在未授予 Notebook 数据访问权限的情况下无法通过 Notebook 写入 _delta_log?
TLDR:为什么我的 Spark 集群无法完成对 Delta 表的写入,除非我的 Jupyter Notebook 能够访问数据位置,这与我对 Spark 应该处理写入的预期相反
我正在尝试让 mvn 将 Delta Lake 下载到某个目录,以便我可以手动将其挂载到 Spark 中。这样 Spark 应用程序就不必出于安全目的向 mvn 发出 Web 请求,想法...
我有一个数据集,我想迭代列列表并使用两个新列(状态和消息)丰富数据集。 如果任何行、任何列为空,则状态应设置为 F...