databricks 相关问题

有关Databricks统一分析平台的问题

Spark 任务随机花费太多时间

我已经使用 pyspark 在 databricks 上设置了一个 Spark 集群。首先,我形成一个包含 200 个 s3 路径的列表,每个路径最终都会成为一个数据帧,因此 Spark 中总共有 200 个数据帧并存储到另一个......

回答 1 投票 0

即使 df 所基于的表被删除,spark 如何显示数据帧的输出?

考虑 Azure Databricks 上的以下场景。 Spark.table("table1").createOrReplaceTempView("test_view") df = test_view.drop("col1") Spark.sql("删除表

回答 1 投票 0

用于删除复杂 Json 模式中的列的 Pyspark 代码

团队, 我是 Pyspark 编程的初学者 我正在尝试从下面架构中存在的数组列中删除“ProductEntityCode”。此列嵌套在

回答 1 投票 0

Databricks SQL 查询在比较日期时间时非常慢

在 Databricks SQL 中,我有一个需要永远执行的查询,在我们的旧系统中执行时间不会超过 2 小时(即使对于这部分查询也需要 4 分钟)。我已将问题追溯到

回答 1 投票 0

根据另一个数据帧中的值替换部分数据帧值

我的 Databricks 笔记本中有两个数据框。例如,数据如下所示: df1: 身份证号码 1 200/300A/200B 2 805/805B/500 3 22A+100B 4 200/300A/200B+22A+100B; 5 100+-805/+22A+100B; 6 ;...

回答 2 投票 0

如何高效地描述 hive_metastore 中的数千个表

我们希望从 hive_metastore 中的表中收集各种信息,以生成未来优化的指标。 hive_metastore 包含数百个模式,总共约 150K ...

回答 1 投票 0

Spark (Databricks):如何高效地描述 hive_metastore 中的数千个表

我们希望从 hive_metastore 中的表中收集各种信息,以生成未来优化的指标。 hive_metastore 包含数百个模式,总共约 150K ...

回答 1 投票 0

如何使用 pysaprk databricks 替换基于其他数据帧的数据帧中的值

我的数据块笔记本中有两个数据框。例如数据如下所示: df1: 身份证号码 1 200/300A/200B 2 805/805B/500 3 22A+100B 4 ; 5 df2: id 805 200B 22A 现在我想回复...

回答 1 投票 0

Delta Live Table - DLT 管道在初始化状态下受到攻击

我有一个 DLT 管道,它通过从 sql server 读取数据来创建 Delta 表,然后我们调用几个 api 来更新 cosmos 中的元数据。每当我们启动它时,它就会进入初始化状态......

回答 2 投票 0

如何使用 pysaprk 替换基于其他数据帧的数据帧中的值

我的数据块笔记本中有两个数据框。例如数据如下所示: df1: 身份证号码 1 200/300A/200B 2 805/805B/500 df2: id 805 200B 现在我想用 df2 替换 df1 名称...

回答 1 投票 0

使用Databricks通用集群获取spark作业名称

我正在构建从各种远程系统收集数据到中央 Spark 集群的系统。我使用 Delta 格式保存本地数据。 收藏完后,我想得到col的数量...

回答 1 投票 0

如何使用 Databricks dbutils 删除文件夹中的所有文件

有人可以让我知道如何使用 databricks dbutils 删除文件夹中的所有文件。 我已尝试以下操作,但不幸的是,Databricks 不支持通配符。 dbutils.fs.rm('adl://

回答 7 投票 0

在 Azure Databricks 中使用 ai_query 函数与 us-east 的无服务器 SQL 仓库时出现问题

我正在尝试使用 ai_query 运行一个非常简单的测试来访问 Azure Databricks 中的 llama2,基本上我只是执行文档中给出的查询: 选择 ai_query( “databricks-lla...

回答 1 投票 0

用多个分隔符sql分割

我有一个用例,我需要用多个分隔符分割字符串。 客户ID 废话废话 布莱布莱赫 从 mytbl 选择 client_id ,split(client_id,'-')[0] col1` ,split(client_id,'-')[1] col2

回答 1 投票 0

无法使用 DBFS 文件 API 路径附加到 Databricks 中的 csv(不支持 OSError Errno 95 操作)

为什么我无法使用以下代码覆盖文件? 一些上下文:我注意到,假设我希望每次都创建并附加一个 .csv 文件,尽管我给出“a”(附加)作为写入模式,但...

回答 1 投票 0

使用Python加密Databricks中的列,同时保留原始数据类型

我正在使用Python在Databricks中开发一个数据安全项目,我需要对DataFrame中的某些列进行加密,同时确保加密的列保留其原始数据类型。我已经

回答 1 投票 0

OSError:[Errno 95]使用 DBFS 文件 API 路径编写 pandas 数据帧时,Databricks 中不支持操作

代码和错误的屏幕截图 为什么我无法使用下面的代码再次编写, 只是为了给您一些背景信息,我注意到,假设我想每次创建并附加一个 .csv 文件,w...

回答 1 投票 0

从 Azure 容器读取输入 CSV 文件时,如何在 Databricks 中使用 PySpark 动态传递列名称

我有一个输入文件employee.csv,存储在包含“Empid”、“Ename”、“Esalary”列的容器中,并且我使用这3个列在databicks delta Lake中创建了一个目标表

回答 1 投票 0

在架构中使用特定类型时,加载保存的 df 后 Databricks 值为空

我在使用databricks时遇到一个问题,当我在模式中设置特定类型并读取json时,它的值很好,但是在保存我的df并再次加载后,该值消失了。 我有这个...

回答 1 投票 0

Databricks / AZURE 中的授权标头问题(到 Blob 存储或 ADLS1 或 ADLS2)

由 cousera DP203 上的 Databricks、AZURE 上的 Databricks 托管服务提供的代码: %fs 头 /mnt/training/wikipedia/pageviews/pageviews_by_second.tsv 这是行不通的。它给: Azure异常:

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.