databricks 相关问题

有关Databricks统一分析平台的问题

架构验证 json

在 databricks 中的 pyspark 中对复杂嵌套 json 进行模式验证的最佳方法是什么。我当前的输入是一个数据框,其中一列为 json。 我正在尝试使用 Jsonschema libr...

回答 1 投票 0

日期时间类型的对象在 Airflow DatabricksSqlOperator 中不可 JSON 序列化

我正在尝试使用 DatabricksSqlOperator 从 Databricks 增量表中获取 Airflow 中的一些数据: 选择 = DatabricksSqlOperator( databricks_conn_id = databricks_id, http_path=http...

回答 2 投票 0

Azure Databricks“无法从 Databricks 控制平面获取实例引导步骤”

我有一个 terraform 代码来部署 Databricks 工作区。 资源“azurerm_databricks_workspace”“databricks”{ 资源组名称 = var.资源组名称 位置...

回答 1 投票 0

databricks 中的 SQL 函数

我想在 SQL 中创建一个函数,如果是该月的第一天,则返回 yes,否则返回 no。下面不行。 创建临时函数 newmonth() 返回字符串(20) 确定性的

回答 1 投票 0

Databricks ML 模型权限

全部, 从模型菜单中,我从各个版本中选择了一个模型(贷款审批数据),并能够将其设置为“实时推理”。我对 1994 年人口普查数据也做了同样的事情。我...

回答 1 投票 0

如何将dynamodb与pypspark或databricks集成?

我正在尝试将 amazon dynamodb 与 pyspark 连接,并且我正在按照此文档执行此操作 https://github.com/audienceproject/spark-dynamodb 但在输出中我没有在我的 ta 中获取任何数据...

回答 1 投票 0

读取不同的架构并插入到azure中的目标中

我正在从镶木地板文件中读取数据并将其插入到我的目标表中。 我处于如下情况 昨天收到一个文件,其中包含以下几列: 栏 1 栏 2 栏 3 AAA 123 456 和

回答 1 投票 0

我们可以从 # https://docs.databricks.com/en/dev-tools/sql-execution-tutorial 的语句执行中获取普通查询吗?

我正在使用 Hive Data Brics 的 SQL 语句 API。 https://docs.databricks.com/en/dev-tools/sql-execution-tutorial 我正在使用 SQL Api 以及我传递的查询和参数列表。 有可能得到...

回答 1 投票 0

Azure Databricks SQL 上的异常处理

我正在将一些 Oracle 函数迁移到 Databricks SQL。迁移的函数工作正常,但我不确定如何编写 EXCEPTION 块。 我在 Oracle 上有以下内容: 其他人的例外...

回答 1 投票 0

airflow DatabricksSubmitRunOperator 支持 python 轮吗

我知道我们可以通过 UI 提交 python 轮作业,但是是否可以使用气流 DatabricksSubmitRunOperator 来实现它? 对于doc,好像只支持python_file,有workar吗...

回答 1 投票 0

如何使用 jdbc 将 google cloudspanner 与 pyspark 以及 databricks 连接?

我有spark版本3.5.0和scala版本2.12,我正在使用'spark-3.1-spanner-1.0.0.jar' 导入操作系统 从 google.oauth2 导入 service_account 从 pyspark.sql 导入 SparkSession 火花 = SparkSess...

回答 1 投票 0

从子目录中的多个文件创建 (CSV) 外部表

假设我有一个每天提取的数据集,并将其放置在数据湖(Azure Data Lake Storage)中特定位置的带时间戳的子目录中。目录结构...

回答 1 投票 0

计算 pyspark 数据框中的逗号数量并排除双引号内的逗号

我在 pyspark 数据框列名称文本(单列)中存在以下字符串。 30,kusuo,6,18,97,42,"萨姆,K,卡兰",lmhYK,49,阿拉塔,51,34,3,49,75,39,pdwvW,54,7,63,12,25, 26、SJ12u、rUFU...

回答 1 投票 0

将逗号分隔的数据帧写入 pyspark 中具有多个命名列的增量格式

我有一个单列(详细信息)的数据框,有 100 万条记录,下面提到的一条记录的示例 30,Ness,42,"SAM,K,Clarke",英国,49,39,丹麦,54,7,"[email protected] ,Sam.

回答 1 投票 0

在 pyspark(不寻常的数据格式)中迭代/解析 df.collect() 的最佳方法是什么?

我正在使用 Databricks pyspark,读取 s3 对象,但它不是通常的 CSV。它在文件中间有标题和数据,所以我像这样读它。 df = (spark.read .format("文本&quo...

回答 1 投票 0

我们如何识别数据框中哪个列名称被重命名?

假设,我每天都会收到一个带有 cols - [A,B,C] 的数据框。突然,第二天其中一栏被重命名为“D”。 如何确定哪一列已重命名为 D?我们可以比较数据并说...

回答 1 投票 0

如何在 Databricks SQL 中执行 for 或 while 循环

有谁知道如何在Databricks中的SQL中编写for或while循环?我已经尝试了以下 SQL Server 类型代码的许多变体,但似乎没有任何效果。我似乎找不到任何参考...

回答 2 投票 0

Databricks 自定义保持活动集群

我已将 databricks 集群升级到 10.4 LTS 到 12.2 LTS,并且我们使用集群的方式发生了重大变化。 对于某些上下文,我们在 Azure 机器学习 VM 上部署 python 代码,这将

回答 1 投票 0

Databricks ui 在激活 SCIM 集成的不同 Azure 租户之间有所不同

激活 SCIM 集成的不同 Azure 租户之间的 Databricks ui 有所不同。 问题是我们已经启用了 SCIM 集成并同步了两个租户中的几个组...

回答 1 投票 0

如何使用服务主体 [Azure] 创建存储凭证

正如文件所示, Azure Databricks 访问连接器是第一方 Azure 资源,可让你将托管标识连接到 Azure Databricks 帐户。您必须拥有 Contributo...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.