有关Databricks统一分析平台的问题
ADF 管道计划每小时失败,查找活动从 Databricks 目录中获取上次摄取日期
我们安排了一个包含 Lookup 活动的 ADF(Azure 数据工厂)管道,该管道负责从 Databricks 目录(Hive 元存储)中获取最后摄取的日期。这个pi...
将表名称和过滤器作为 Databricks 笔记本中的变量传递
我在databricks笔记本中的python代码 qty_table = customer_master.customer_qty 客户 ID = 1000 cust_qty = Spark.sql("从 ${qty_table} 中选择 count(*),其中 id = ${customer_id}").coll...
我有一个主(父)笔记本,它正在使用 dbutils.notebook.run 调用另一个笔记本(子)。 如果子笔记本失败,我使用 dbutils.notebook.exit("Error
使用 Spark 从 Kafka 读取数据时如何访问 VARIANT 列中的字段?
如果我不尝试访问嵌套字段,我会得到一个很好的结构。我正在阅读卡夫卡并写入表格。该问题发生在 readStream 上。我得到 [INVALID_EXTRACT_BASE_FIELD_TYPE] 无法执行...
请帮助我查询我想在 azure data bricks 作业中添加作业参数的下拉列表,我可以在笔记本级别执行此操作,但不能在作业级别执行请帮助
我想使用DLT管道定义一个表“DEMO”。该表包含事件日志中的数据。这是我想做的事情的简化和匿名示例。我真的需要这个信息...
如何在 Databricks 配置或 PySpark 配置中添加“additionallyAllowedTenants”?
我有一个多租户Azure应用程序。我正在使用此应用程序的凭据使用 PySpark 数据帧从 Databricks 集群读取 ADLS 容器文件。 我需要设置这个“additionallyAllowedTenants”标志...
我正在使用 databricks-connect 模块在本地计算机上 PyCharm 内的 Databricks 集群表单上运行我的代码。只要我在公司网络之外,即工作......
我有一张按小时分区的 Delta Lake 表。表架构包括: colA(字符串类型) colB(int类型) colC(结构类型) 当我执行历史加载时,所有分区都会填充正确的...
看起来很简单,但我却被困住了。 我想限制结果,即 A 列中的每个不同值只能包含一定数量的记录,例如 1000 条记录。因此,对于值 1,我需要最多 1000 个记录...
我们在 EAST US2 区域部署了一个使用 SCC(安全集群连接)的天蓝色 databricks 实例。 我们创建了一个公共 IP 地址空间和一个与该地址关联的 NAT 网关...
如何使用 SparkR 将多个计算列添加到 SparkDataFrame?
现在我陷入了一个相当基本的案例,但我找不到 SparkR 的聪明解决方案...... 我需要从 SparkDataFrame 中的 N 列创建 N 个新的计算列。 df <- data.frame(V1 = base::
Airflow 正在运行两个作业并在 Databricks 中返回错误,但运行成功
我遇到了每天运行的 Airflow DAG 的问题。当我手动触发 DAG 时,它成功执行,并且所有任务都完成,没有任何问题。然而,当 DAG 运行时...
Databricks 笔记本允许从设置菜单设置小部件行为:https://docs.databricks.com/notebooks/widgets.html#configure-widget-settings-1。 有没有办法改变“On Widget
在azure databricks笔记本中启用统一目录集群之前,但在更改共享用户启用集群之后,我使用了下面的代码。我无法使用下面的逻辑,我们应该如何实现 si...
如何将数据块中的数据写入ADLS? 答: dbutils.fs.ls("abfss://[email protected]/") customer_df.coalesce(1)write.format("csv&...
我正在寻求有关使用 Autoloader 处理 Databricks 中满载场景的指导。请不要对我太苛刻,因为我目前缺乏实践经验。 我的场景是...
共享计算中的 ManagedIdentityCredential - Databricks
我们正在使用一些笔记本从其他系统中获取数据并将其放置在存储帐户中。 我们的团队最近在 Azure Databricks 上启用了系统托管身份,并且在尝试连接时...
Poetry Pytest - ModuleNotFoundError databricks extras
我在运行 pytest 时遇到了一个令人困惑的困难,其中包具有“包额外”依赖项: 诗歌添加“databricks-sql-connector[sqlalchemy]” 这个模块被导入到我的包中,就像...
我使用了 PySpark DataFrame,在其中调用了 UDF 函数。此 UDF 函数进行 API 调用并将响应存储回 DataFrame。我的目标是存储 DataFrame 并在...中重用它