databricks 相关问题

有关Databricks统一分析平台的问题

日期列中的序列/爆炸问题 - Pyspark

我在使用 SEQUENCE 和 EXPLODE 处理 DataFrame 时遇到问题,该 dataframe 有 3 列: 员工ID 聘用日期 离开日期 我正在生成一个序列以获取每月之间的记录...

回答 1 投票 0

“databricks -o json”空数组和“null”之间的输出不一致

尝试理解 Bash 中的一些奇怪行为。 我正在使用 CLI 包装器查询 API(databricks api),因此 API 请求是通过 CLI 格式的命令发送的。我正在使用 Bash 发送...

回答 1 投票 0

pyspark where 子句可以作用于不存在的列

我偶然注意到 pyspark 的奇怪行为。基本上,它可以对数据框中不存在的列执行 where 函数: 打印(火花.版本) df = Spark.read.format("csv&quo...

回答 1 投票 0

无法将“SparkXGBRegressorModel”记录到 Databricks 上的功能存储

我正在 Azure Databricks 上开发 MLOps 项目,在使用“SparkXGBRegressorModel”库训练模型后,我想将其记录到功能存储中。问题是使用 fs.log_...

回答 1 投票 0

如何更改我想要的表格形状?

这是我第一次问堆栈溢出 这是我的查询 选择 一个值, a.代码, a.kndnr 从 原始的 JOIN z_raw b ON a.code = b.zgrpc 在哪里 b.gubun = '09811' 并且c...

回答 1 投票 0

Databrick SQL - 填补最小和最大日期之间的差距

我正在 Azure Databricks Sql 上处理此示例数据,其中日期之间存在间隙。 based_date 列中的数据反映了数据存储在系统中的时间。然而,对于预期的

回答 1 投票 0

通过 DataBricks 将大量表下载到 ADLS 只是为了将其连接到较小的表,效率低下吗?

如果这个问题不明确,请告诉我,我可以提供更多详细信息。我的 DataBricks 环境附加到 Azure Synapse 实例。我们有大量的 ADLS 存储。第一部分...

回答 1 投票 0

Databricks 访问文件_元数据时出现问题

我正在尝试使用以下说明访问 _metadata 以获取文件修改时间: https://docs.databricks.com/en/ingestion/file-metadata-column.html 这是我的代码: df = Spark.read \ ...

回答 1 投票 0

在 Spark 结构化流中对 foreachBatch 操作应用定义的函数时出现 STREAMING_CONNECT_SERIALIZATION_ERROR

我正在使用 Spark 结构化流,但偶然发现了一个问题,但我看不到问题的根本原因和解决方案。 我定义了一个包含函数的 Reader 类

回答 1 投票 0

如何通过 Databricks 资产包重用集群

我使用 Databricks 资产包作为带有 databricks 的 IAC 工具。我想使用 DAB 创建一个集群,然后在多个作业中重复使用同一集群。我找不到这方面的例子。不管怎样

回答 1 投票 0

Python 轮子作业 - 找不到模块

问题:我用一个非常基本的模块制作了一个轮子,并将其安装在 Databricks 集群上。创建“Pythonwheel”类型的作业时,作业无法运行,因为找不到包。 套装...

回答 5 投票 0

无法在Databricks中导入上传的Python轮

也发布在官方论坛上,在此转发以提高可见性。 已完成此处将自定义 Python 轮上传到 Databricks 的所有步骤。我制作了一个简单的测试轮,名为

回答 3 投票 0

LIVE TABLE 和 Streaming LIVE TABLE 的区别

使用DLT时,我们可以使用STREAMING LIVE TABLE或LIVE TABLE创建一个实时表,如文档中所述: 创建或刷新{流式直播表|实时表 } 表名 什么是

回答 2 投票 0

Spark Databricks:流-流 LeftOuter Join 返回空结果

Databricks,带有 Delta Live Tables,Spark 3.4 我有一个包含一些记录的流数据帧(我们称之为“原始”)。然后我根据一些条件过滤这个表,修改一些

回答 1 投票 0

期货在[5秒]后超时

在具有以下配置的作业集群上: 驱动程序:标准_E8ds_v5 工人:标准_E8ds_v5 30名工人 11.3 LTS Photon(包括 Apache Spark 3.3.0、Scala 2.12) 我们大约是...的 5%

回答 3 投票 0

databricks 中的单元测试笔记本

我在 repo /Workspace/Repos/temp/test1/sample.py 内的 test1 文件夹中创建了 test_example.py,如下所示: def test_addition(): 断言 1 + 2 == 3 def test_subtraction(): 断言 5 - 3...

回答 1 投票 0

Databricks SQL:从静态表查询原始“JSON”字符串时仅返回 NULL 值

我正在尝试从我创建的以下 JSON 文件//自定义表中提取数据元素。数据是匿名的,来自 HIE FHIR 网站(src:https://www.hl7.org/fhir/patent-example-f001-pieter。

回答 1 投票 0

有状态 Spark Streaming 的 SST 文件数量无限增长

我们正在 Databricks 上运行一个非常简单的 Apache Spark Streaming 应用程序。它使用来自 Apache Kafka 的消息,基于 1 小时水印进行重复数据删除,并写入输出...

回答 1 投票 0

如何解决 databricks-registry-webhooks 的 databricks.proto 的 TypeError?

我正在尝试在 Databricks 中为 MLflow 创建 webhook。但是,在从 databricks_registry_webhooks 导入RegistryWebhooksClient、JobSpec、HttpU... 导入时,我收到以下 TypeError

回答 1 投票 0

更新DataBricks中String列类型的JSON数据中的特定值

我在databricks目录中有一个列类型为字符串的表。它包含 JSON,我想从中更新特定值,例如“key1”。我已经使用 from_json 将其转换为 json...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.