有关Databricks统一分析平台的问题
Databricks SQL 查询用于查找具有特殊字符的行并丢弃这些行
作为 Databricks 的一部分,我们希望过滤列中具有特殊字符的行。 假设我们有一个包含如下数据的表: 表1有 第 1 列 中央大街199号 1664 奥布洛克路 第1630章 哈...
无法使用 pyspark 对从 Azure Databricks 中的 jsonl 文件读取的数据强制执行架构
我正在尝试构建一个 ETL 管道,在该管道中我从 azure blob 存储中读取 jsonl 文件,然后尝试将其转换并加载到 databricks 中的增量表中。 我创建了以下方案...
我有一个大约有 50K 到 100K 行的 DataFrame 该 DataFrame 大约有 4 列。 我们需要过滤 DataFrame 以丢弃任何特殊字符行 中央大街199号 1664 奥布洛克路 1630
无法使用秘密范围从 Azure 存储帐户读取/列出到 Databricks 笔记本中
尽管我已经检查并测试了我的 Azure 存储帐户中的 blob url 路径,但我仍然收到:无法解析主机名。就像我的秘密瞄准镜不起作用一样。这是...
当我尝试创建存储库时出现 Databricks API 存储库错误
我使用此文档来克隆存储库文本 但不幸的是,我做不到。 另外,我需要它在 Azure DevOps 的管道中运行,但由于我无法手动执行此操作,所以我也无法在 Postman、Python 或 Ba 中运行...
在连续从源 s3 存储桶中提取文件时,我希望能够检测到文件被删除的情况。据我所知,自动加载器无法处理检测...
我正在尝试使用 Spark 读取 Databricks 中的大型 zstandard 文件(压缩后约 30GB)。它是以下 PGN 格式 (.pgn.zst) 的国际象棋游戏集合 [活动“额定子弹锦标赛...
如何显示/查看`sklearn.utils.Bunch`数据集?
我正在学习一个使用 sklearn.utils.Bunch 作为数据集的教程: cal_housing = fetch_california_housing() 我在 Databricks 笔记本上运行它。 我已经阅读了文档......
REGEXP_REPLACE 在 Databricks 中未按预期工作以向字符串添加空格
我有一行代码,用于在下面给定列的每 3 个字符后向字符串添加空格: regexp_replace(column, '(.{3})', '$1 ') as new_column 在 SQL 编辑中手动运行此代码时...
Databricks - 如何更改现有 Delta 表的分区?
我在 Databricks delta 中有一个表,它按 transaction_date 分区。我想将分区列更改为view_date。我尝试删除该表,然后使用新的分区 co 创建它...
我正在 Databricks SQL 笔记本上编写此 SQL 查询 创建或替换表student ( Student_id int 主键, 年龄整数检查(年龄>10) ) 但出现错误 [解析语法错误]:语法
使用databricks资产包,我想将作业用作YAML文件,并且能够在使用azure devops部署作业时通过更改作业名称来复制它。 例如,这是内容...
我正在将 databricks Autoloader 与 Azure blob 存储结合使用。我在源数据中更改了列名称,并且很好奇在不更改下游列的情况下处理此更改的最佳方法
Databricks pyspark pandas 与 numpy 发生错误
我在使用 pyspark pandas 时收到以下错误: PandasNotImplementedError:方法 pd.Series.__iter__() 未实现。如果您想将数据收集为 NumPy 数组,请使用 '
我有一个如下所示的 pyspark 数据框: 层次节点父节点 USREBT2.0.1 USREBT2 USREBT2.1.1 USREBT2.0.1 1004052024.0.1 1004052024 1004052024.1.1 1004052024.0.1
如何从父文件夹导入模块 python(Databricks 作业 - Python 脚本)?
项目包含以下文件夹: 项目 ├── 配置 | └── utils.py └── 来源 └── 模块01 └── 文件01.py 在文件01.py中 从 config.utils 导入 * 当在 Databricks 作业中运行带有
我下面有一个数据框,想要将该内容写入 .json 文件。 在创建输出文件时,我不需要成功部分日志文件,因此我尝试从数据帧收集()值...
如何使用Databricks限制Azure AD SPN权限?
您好,我正在使用数据砖, 和 使用 https://docs.databricks.com/api/workspace/statementexecution 我正在 Azure ADAP SPN 令牌的帮助下使用 SQL Api 语句。 我可以运行所有查询
如何使用pyspark/dbutils/databricks根据子目录的名称提取父目录的名称?
我在 ADLS gen2 上有以下文件夹结构: abfss://[email protected]/original_data/ 其中包含以下文件夹。 abc1/ abc2/<
需要将曾祖父母、祖父母、父亲、孩子等分组......在spark中单行记录
这是源数据框 ID 姓名 层 家长 孩子 1 A 1 3 2 1 1 5 3 乙 2 1 4 4 C 3 3 6 5 2 2 2 7 6 D 4 4 7 3 3 5 需要以下面的方式以动态的方式得到结果,有时孩子会...