databricks 相关问题

有关Databricks统一分析平台的问题

Databricks SQL 查询用于查找具有特殊字符的行并丢弃这些行

作为 Databricks 的一部分,我们希望过滤列中具有特殊字符的行。 假设我们有一个包含如下数据的表: 表1有 第 1 列 中央大街199号 1664 奥布洛克路 第1630章 哈...

回答 1 投票 0

无法使用 pyspark 对从 Azure Databricks 中的 jsonl 文件读取的数据强制执行架构

我正在尝试构建一个 ETL 管道,在该管道中我从 azure blob 存储中读取 jsonl 文件,然后尝试将其转换并加载到 databricks 中的增量表中。 我创建了以下方案...

回答 1 投票 0

DataFrame 过滤具有特殊字符的行

我有一个大约有 50K 到 100K 行的 DataFrame 该 DataFrame 大约有 4 列。 我们需要过滤 DataFrame 以丢弃任何特殊字符行 中央大街199号 1664 奥布洛克路 1630

回答 1 投票 0

无法使用秘密范围从 Azure 存储帐户读取/列出到 Databricks 笔记本中

尽管我已经检查并测试了我的 Azure 存储帐户中的 blob url 路径,但我仍然收到:无法解析主机名。就像我的秘密瞄准镜不起作用一样。这是...

回答 1 投票 0

当我尝试创建存储库时出现 Databricks API 存储库错误

我使用此文档来克隆存储库文本 但不幸的是,我做不到。 另外,我需要它在 Azure DevOps 的管道中运行,但由于我无法手动执行此操作,所以我也无法在 Postman、Python 或 Ba 中运行...

回答 1 投票 0

DataBricks 自动加载器与输入源文件删除检测

在连续从源 s3 存储桶中提取文件时,我希望能够检测到文件被删除的情况。据我所知,自动加载器无法处理检测...

回答 1 投票 0

Spark - 如何高效读取大型 zstandard 文件

我正在尝试使用 Spark 读取 Databricks 中的大型 zstandard 文件(压缩后约 30GB)。它是以下 PGN 格式 (.pgn.zst) 的国际象棋游戏集合 [活动“额定子弹锦标赛...

回答 1 投票 0

如何显示/查看`sklearn.utils.Bunch`数据集?

我正在学习一个使用 sklearn.utils.Bunch 作为数据集的教程: cal_housing = fetch_california_housing() 我在 Databricks 笔记本上运行它。 我已经阅读了文档......

回答 3 投票 0

REGEXP_REPLACE 在 Databricks 中未按预期工作以向字符串添加空格

我有一行代码,用于在下面给定列的每 3 个字符后向字符串添加空格: regexp_replace(column, '(.{3})', '$1 ') as new_column 在 SQL 编辑中手动运行此代码时...

回答 1 投票 0

Databricks - 如何更改现有 Delta 表的分区?

我在 Databricks delta 中有一个表,它按 transaction_date 分区。我想将分区列更改为view_date。我尝试删除该表,然后使用新的分区 co 创建它...

回答 3 投票 0

对 SQL 查询应用检查时出现错误

我正在 Databricks SQL 笔记本上编写此 SQL 查询 创建或替换表student ( Student_id int 主键, 年龄整数检查(年龄>10) ) 但出现错误 [解析语法错误]:语法

回答 1 投票 0

Databricks Bundle Assets 创建作业

使用databricks资产包,我想将作业用作YAML文件,并且能够在使用azure devops部署作业时通过更改作业名称来复制它。 例如,这是内容...

回答 1 投票 0

Databricks AutoLoader 源列名称更改

我正在将 databricks Autoloader 与 Azure blob 存储结合使用。我在源数据中更改了列名称,并且很好奇在不更改下游列的情况下处理此更改的最佳方法

回答 1 投票 0

Databricks pyspark pandas 与 numpy 发生错误

我在使用 pyspark pandas 时收到以下错误: PandasNotImplementedError:方法 pd.Series.__iter__() 未实现。如果您想将数据收集为 NumPy 数组,请使用 '

回答 1 投票 0

Pyspark:动态扁平化层次结构表

我有一个如下所示的 pyspark 数据框: 层次节点父节点 USREBT2.0.1 USREBT2 USREBT2.1.1 USREBT2.0.1 1004052024.0.1 1004052024 1004052024.1.1 1004052024.0.1

回答 1 投票 0

如何从父文件夹导入模块 python(Databricks 作业 - Python 脚本)?

项目包含以下文件夹: 项目 ├── 配置 | └── utils.py └── 来源 └── 模块01 └── 文件01.py 在文件01.py中 从 config.utils 导入 * 当在 Databricks 作业中运行带有

回答 1 投票 0

将 pyspark 数据帧转换为 json 文件

我下面有一个数据框,想要将该内容写入 .json 文件。 在创建输出文件时,我不需要成功部分日志文件,因此我尝试从数据帧收集()值...

回答 2 投票 0

如何使用Databricks限制Azure AD SPN权限?

您好,我正在使用数据砖, 和 使用 https://docs.databricks.com/api/workspace/statementexecution 我正在 Azure ADAP SPN 令牌的帮助下使用 SQL Api 语句。 我可以运行所有查询

回答 1 投票 0

如何使用pyspark/dbutils/databricks根据子目录的名称提取父目录的名称?

我在 ADLS gen2 上有以下文件夹结构: abfss://[email protected]/original_data/ 其中包含以下文件夹。 abc1/ abc2/<

回答 1 投票 0

需要将曾祖父母、祖父母、父亲、孩子等分组......在spark中单行记录

这是源数据框 ID 姓名 层 家长 孩子 1 A 1 3 2 1 1 5 3 乙 2 1 4 4 C 3 3 6 5 2 2 2 7 6 D 4 4 7 3 3 5 需要以下面的方式以动态的方式得到结果,有时孩子会...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.