databricks 相关问题

有关Databricks统一分析平台的问题

合并到更新/插入

我在合并到databricks笔记本中的大量数据集时遇到问题。 如何将合并转换为脚本来更新/插入? 目标表 = f""" 合并到 {

回答 1 投票 0

有人知道如何在Databricks中显示pandas数据框吗?

以前我有一个 pandas 数据框,我可以使用以下方法在 Databricks 中将其显示为表格: df.display() Pandas 已更新至 v2.0.0。今天,当我运行 df.dis 时,我收到以下错误...

回答 4 投票 0

Azure Databricks 发布管道访问问题

情况: 我想发布 Databricks 工作区、集群、作业和笔记本。 一切都通过 VS Code 和 AZ Login 进行。 当我运行 Azure Devops Pipeline 时,出现以下错误。 错误:无法读取 j...

回答 1 投票 0

如何在Databricks SparkSQL中使用Try Catch实现错误处理

有没有办法在 Spark-SQL 中实现 try Catch (不在 Pyspark 中),如下所示在 databricks 中。 我尝试实现但遇到语法问题。任何示例代码将不胜感激。 开始...

回答 1 投票 0

使用 FastAPI 在 Databricks 中创建表 - Python 代码

我正在开发一个FastApi,它假设根据JSON格式的请求进行一些计算,然后发送响应并将其存储在几个Databricks目录表中。 所以,在 API 中,我...

回答 1 投票 0

DBFS 和 databrciks 卷之间的区别

DBFS 和卷有什么区别? 卷属于 DBFS 还是在架构方面到底属于什么? 我想了解卷的位置以及它们的优势...

回答 1 投票 0

DataBricks PySpark withColumn() 第一次成功后失败

我正在使用 Python/PySpark 在 DataBricks 中工作。我有几个复制单个输入列的输出列。输出列之一是大写或混合大小写 i 的小写版本...

回答 1 投票 0

Databricks 中的自动加载器

如果自动加载器读取文件并且写入失败,下次运行流时会发生什么?它会忽略这些文件还是会在流媒体过程中再次出现? 我试图阅读并...

回答 1 投票 0

如果该表后来转换为 Parquet 表,对 Delta 表进行 Zorder 会影响性能吗?

我是 Delta 桌子的所有者,一些消费者希望将其复制为镶木地板桌子。由于种种原因,我公司内部有些人不会使用达美航空。我已将此 Delta 表按 Z 排序为

回答 1 投票 0

如何从Databricks中的Delta表导出数据并写入txt文件

我有一个包含 20 列和大约 523 万行的增量表。有些列是复杂的数据类型。我想从表中导出数据并使用带标题的 python 写入 .txt 文件...

回答 1 投票 0

pyspark XML 读取生成空数据帧

我正在尝试使用 pySpark 读取 XML 文件。问题是,它产生空数据帧。我能够毫无问题地读取不同的文件。 XML 结构如下: 我正在尝试使用 pySpark 读取 XML 文件。问题是,它产生空数据帧。我能够毫无问题地读取不同的文件。 这是 XML 结构: <?xml version="1.0"?> <TAG1> <TAG2 id="ID1"> <field1>some value</field1> <field2>some value</field2> <field3></field3> </TAG2> <TAG2 id="ID2"> <field1>some value</field1> <field2></field2> <field3></field3> </TAG2> <TAG2 id="ID3"> <field1>some value</field1> <field2>some value</field2> <field3>some value</field3> </TAG2> </TAG1> 我在读取文件时尝试了不同的选项,但没有一个有效。 df = spark.read \ .format('com.databricks.spark.xml') \ .options(rowTag='TAG2') \ .options(nullValue='') \ .options(emptyValue='') \ .load(xmlFile) 更新: 我将文件内容复制到一个新文件,保存并加载,没有任何问题。 看来原始文件引起了问题。我尝试在读取选项中放入各种编码,但仍然无法加载原始文件。 文件恰好以 UTF-16 编码,但设置此编码并没有解决问题。我仅在传递另一个参数后才成功加载文件 - charset。 df = spark.read \ .format('com.databricks.spark.xml') \ .options(rowTag='TAG2') \ .options(nullValue='') \ .options(encoding='UTF-16LE') \ .options(charset='UTF-16') \ .load(xmlFile)

回答 1 投票 0

Databricks 中的单元测试框架

导入单元测试 从 pyspark.sql 导入 SparkSession 从 pyspark.sql.functions 导入 col、count、when # 创建数据框 Spark_df = Spark.sql('从 dna_scr_l3.vw_dna_cdm_md_bom 选择 *') c...

回答 2 投票 0

通过databricks访问oracle数据库

我正在尝试通过我的databricks访问oracle db,我已经在集群中安装了最新的oracle jdbc。下面是代码 df==(spark.read.format("jdbc") 选项(“网址”,“...

回答 1 投票 0

Databricks 无服务器 SQL 仓库查询,以架构名称作为参数

我想在无服务器 SQL 仓库上执行查询,以授予一组用户对目录上特定架构的访问权限(我们尚未启用 Unity Catalog,需要一段时间才能...

回答 1 投票 0

Databricks Github 操作授权失败

我的 Databricks Github 操作突然停止工作。有一天还好好的,第二天就开始出问题了。我不断收到错误错误:授权失败。您的令牌可能已过期...

回答 1 投票 0

如何在 Azure 数据工厂管道中使用 MLflow 运行 Databricks 笔记本?

我和我的同事在尝试在 Azure 数据工厂中运行我的 Databricks 笔记本时遇到了问题。该错误来自 MLFlow。 失败的命令如下: # 拿走...

回答 1 投票 0

Pyspark 循环速度非常慢,一次又一次更新相同的数据帧

我想在 databricks pyspark 中实现一个逻辑,我想根据过去 14 天的更新值更新接下来几天的值。我正在使用循环来做到这一点。下面是代码,但速度很慢...

回答 1 投票 0

如何统一2个同源的表?

我有一个表格,其中的值具有流程愿景(recours),其他值具有库存愿景(PSAP)。我把这张桌子分成两部分,以便将我的流动视野转换为库存视野,它有效......

回答 1 投票 0

TASK_WRITE_FAILED 将行写入 s3 时任务失败

我正在使用 Databricks SQL 运行插入语句: 插入 my_catalog.my_schema.my_table (a, b, c) 从 [...] 中选择 a、b、c; 我收到错误消息: [TASK_WRITE_FAILED] 任务失败...

回答 1 投票 0

我们可以在 Delta 表中保留版本的最大天数是多少?

我们可以在 Delta 表中保留版本的最大天数是多少? 我知道默认情况下 Delta 表保留 7 天的版本。但是,我的团队希望保留所有历史版本......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.