databricks 相关问题

有关Databricks统一分析平台的问题

无法在Databricks中导入上传的Python轮

也发布在官方论坛上,在此转发以提高可见性。 已完成此处将自定义 Python 轮上传到 Databricks 的所有步骤。我制作了一个简单的测试轮,名为

回答 3 投票 0

LIVE TABLE 和 Streaming LIVE TABLE 的区别

使用DLT时,我们可以使用STREAMING LIVE TABLE或LIVE TABLE创建一个实时表,如文档中所述: 创建或刷新{流式直播表|实时表 } 表名 什么是

回答 2 投票 0

Spark Databricks:流-流 LeftOuter Join 返回空结果

Databricks,带有 Delta Live Tables,Spark 3.4 我有一个包含一些记录的流数据帧(我们称之为“原始”)。然后我根据一些条件过滤这个表,修改一些

回答 1 投票 0

期货在[5秒]后超时

在具有以下配置的作业集群上: 驱动程序:标准_E8ds_v5 工人:标准_E8ds_v5 30名工人 11.3 LTS Photon(包括 Apache Spark 3.3.0、Scala 2.12) 我们大约是...的 5%

回答 3 投票 0

databricks 中的单元测试笔记本

我在 repo /Workspace/Repos/temp/test1/sample.py 内的 test1 文件夹中创建了 test_example.py,如下所示: def test_addition(): 断言 1 + 2 == 3 def test_subtraction(): 断言 5 - 3...

回答 1 投票 0

Databricks SQL:从静态表查询原始“JSON”字符串时仅返回 NULL 值

我正在尝试从我创建的以下 JSON 文件//自定义表中提取数据元素。数据是匿名的,来自 HIE FHIR 网站(src:https://www.hl7.org/fhir/patent-example-f001-pieter。

回答 1 投票 0

有状态 Spark Streaming 的 SST 文件数量无限增长

我们正在 Databricks 上运行一个非常简单的 Apache Spark Streaming 应用程序。它使用来自 Apache Kafka 的消息,基于 1 小时水印进行重复数据删除,并写入输出...

回答 1 投票 0

如何解决 databricks-registry-webhooks 的 databricks.proto 的 TypeError?

我正在尝试在 Databricks 中为 MLflow 创建 webhook。但是,在从 databricks_registry_webhooks 导入RegistryWebhooksClient、JobSpec、HttpU... 导入时,我收到以下 TypeError

回答 1 投票 0

更新DataBricks中String列类型的JSON数据中的特定值

我在databricks目录中有一个列类型为字符串的表。它包含 JSON,我想从中更新特定值,例如“key1”。我已经使用 from_json 将其转换为 json...

回答 1 投票 0

需要帮助查找与 SAS 代码等效的 Spark SQL 代码

我有一段代码需要从 SAS 转换为 Spark SQL。我想知道SAS中的等效函数是什么 SAS 代码: 数据新表; 放 SOURCE_TABLE1 SOURCE_TABLE2 ; 罗...

回答 1 投票 0

如何在sql中创建rate列?

我正在使用这个查询: 选择 公司类型、年月、月数、自第一个日期、计数(不同权利 ID)作为 number_of_ids 从 t1 按公司类型、年月、月数自第一个日期分组 ...

回答 1 投票 0

Pyspark 将不同行中的列按另一列合并为单行顺序

我有一个数据框,有 2 列 CLMN_SEQ_NUM 和 CLMN_NM。我正在尝试将列 CLMN_NM 合并为以逗号分隔的单行。 所需的操作数 PR_NAME、PR_ID、PR_ZIP、PR_ADDRESS、PR_COUNTRY

回答 2 投票 0

Databricks 作业无法从 github 存储库访问笔记本

我在 Databricks 中创建了一个作业,并配置为使用启用单用户访问并使用 github 作为源的集群。当我尝试运行该作业时,出现以下错误 - 运行失败

回答 1 投票 0

databricks 复制到 xml 文件中

我正在尝试将一些原始 XML 文件从 azure blob 存储加载到增量表。 我已经安装了 blob 容器。 我的代码是: 创建表青铜.my_xml_data; 复制到青铜.my_xml_data 弗...

回答 1 投票 0

在 Databricks 集群上“永久”安装多个库

我使用多个库,目前我在每个笔记本中运行命令 pip install x y z 来使用它们。当我在多个笔记本中这样做时,这不是最方便的方法,它使得

回答 1 投票 0

我需要一个databricks sql查询来分解数组列,然后根据数组中的值的数量转换为动态列数

我有一个 json 数据,其中位置是使用以下值导出的数组列 [“美国”、“中国”、“印度”、“英国”] [“尼泊尔”、“中国”、“在...

回答 2 投票 0

连接两个 pyspark 数据帧,其中 df1 列是 ArrayType,df2 是 IntegerType

我有两个带有 IntegerType 列的 pyspark 数据帧 df1 和带有collect_set 列的 df2。 我想加入两者,以便对于 df2 的每组,df1 中的所有行都应位于同一组中。 我有...

回答 1 投票 0

如何使用 Fugue 将 databricks 表加载到 databricks 笔记本中?

我正在测试 Fugue 库,以比较其与纯 PySpark 相比的优势,为此我希望能够使用 Fugue 严格测试不同的操作。 虽然我已经可以使用F了...

回答 1 投票 0

如何将 pyspark Dataframe 保存到 Databricks 中可下载的 excel 文件

将 pandas 导入为 pd 导入 xlsxwriter pandasDf=REV_COMP_DF.toPandas() pandasDf.to_excel('/tmp/revenue.xlsx',engine='xlsxwriter',header=True) dbutils.fs.mv('文件:/tmp/revenue.xlsx','结果/收入....

回答 1 投票 0

合并到更新/插入

我在合并到databricks笔记本中的大量数据集时遇到问题。 如何将合并转换为脚本来更新/插入? 目标表 = f""" 合并到 {

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.