databricks 相关问题

有关Databricks统一分析平台的问题

使用 pyspark dataframe 从嵌套 json 中提取数据

我在名为 json_col 的列中有以下数据,用于 databricks 中的数据框产品,该产品也具有其他列。 json_col 的数据有如下数据 html:null ,语言:null ,m...

回答 1 投票 0

Databricks 与 Oracle Cloud 的连接:侦听器拒绝连接并出现以下错误

我对此错误感到非常沮丧,因为“侦听器拒绝连接并出现以下错误:”。我真的不知道是什么导致了这个错误,我什至没有完整的错误......

回答 1 投票 0

“LogisticRegressionTrainingSummary”对象没有属性“fMeasureByThreshold”

我是 Pyspark 和 Databricks 的新手,正在尝试创建 Logistic 回归模型(通过 Databrticks 本身提供的 Spark_DS&ML_exercise)。将模型适合我的训练后...

回答 1 投票 0

致命错误 Python 内核无响应 Databricks

最近我在 pyspark 中遇到了一个问题,比如致命错误:python 内核无响应。是内存错误还是其他类型的错误?有人可以解释一下吗?

回答 1 投票 0

使用来自多个目录的镶木地板创建增量表

我们正在从大型仓库中提取数据并保存,如下所示 表格1 2024-01-01_2024-03-31 ├── _成功 ├──_commited_1849751916443920415 ├──_开始_1849751916443920415 ├── p...

回答 1 投票 0

如何编写SQL MERGE查询来生成历史表

我对 SQL 相当陌生,遇到了如下问题。 我有一个 EMPLOYEE 表,每天都会用最新数据刷新。它有 5 列: 员工 ID、姓名、职位、地点、员工...

回答 1 投票 0

有没有办法使用Python连接Delta Live Tables上的两个Live Table?

我想加入两个正在流式传输的银表实时表以创建金表,但是,我遇到了多个错误,包括“RuntimeError(”查询函数必须...

回答 3 投票 0

ODBC 无法在新的 Databricks 集群中工作

导入pyodbc 服务器 = '服务' 用户名 = '用户名' 密码='密码' 驱动程序 = '{用于 SQL Server 的 ODBC 驱动程序 17}' 架构 = '架构' 数据库='数据库' cnxn = pyodbc.connect('DRIVER='+驱动器...

回答 2 投票 0

在 Databricks 中的 Delta Live 表作业中在 Pyspark 中创建表

我正在运行一个 DLT(Delta Live Table)作业,该作业为两个单独的表创建青铜表 > 银表。所以最后,我有两个独立的金表,我想将它们合并成一个......

回答 2 投票 0

如何设置 Delta Live Tables 访问 Azure Data Lake 文件的授权?

我正在用sql编写增量实时表笔记本来访问数据湖中的文件,如下所示: 创建或刷新流直播表 MyTable AS SELECT * FROM cloud_files("DataLakeSou...

回答 3 投票 0

将列表/数据框(R)转换为databricks中的data.table

我通过运行以下命令在 Databricks R 中创建了一个对象:- 数据1_df <- spark_read_table(sc, "data1") The object type apparently is "list" Partial structur...

回答 1 投票 0

Spark 任务随机花费太多时间

我已经使用 pyspark 在 databricks 上设置了一个 Spark 集群。首先,我形成一个包含 200 个 s3 路径的列表,每个路径最终都会成为一个数据帧,因此 Spark 中总共有 200 个数据帧并存储到另一个......

回答 1 投票 0

即使 df 所基于的表被删除,spark 如何显示数据帧的输出?

考虑 Azure Databricks 上的以下场景。 Spark.table("table1").createOrReplaceTempView("test_view") df = test_view.drop("col1") Spark.sql("删除表

回答 1 投票 0

用于删除复杂 Json 模式中的列的 Pyspark 代码

团队, 我是 Pyspark 编程的初学者 我正在尝试从下面架构中存在的数组列中删除“ProductEntityCode”。此列嵌套在

回答 1 投票 0

Databricks SQL 查询在比较日期时间时非常慢

在 Databricks SQL 中,我有一个需要永远执行的查询,在我们的旧系统中执行时间不会超过 2 小时(即使对于这部分查询也需要 4 分钟)。我已将问题追溯到

回答 1 投票 0

根据另一个数据帧中的值替换部分数据帧值

我的 Databricks 笔记本中有两个数据框。例如,数据如下所示: df1: 身份证号码 1 200/300A/200B 2 805/805B/500 3 22A+100B 4 200/300A/200B+22A+100B; 5 100+-805/+22A+100B; 6 ;...

回答 2 投票 0

如何高效地描述 hive_metastore 中的数千个表

我们希望从 hive_metastore 中的表中收集各种信息,以生成未来优化的指标。 hive_metastore 包含数百个模式,总共约 150K ...

回答 1 投票 0

Spark (Databricks):如何高效地描述 hive_metastore 中的数千个表

我们希望从 hive_metastore 中的表中收集各种信息,以生成未来优化的指标。 hive_metastore 包含数百个模式,总共约 150K ...

回答 1 投票 0

如何使用 pysaprk databricks 替换基于其他数据帧的数据帧中的值

我的数据块笔记本中有两个数据框。例如数据如下所示: df1: 身份证号码 1 200/300A/200B 2 805/805B/500 3 22A+100B 4 ; 5 df2: id 805 200B 22A 现在我想回复...

回答 1 投票 0

Delta Live Table - DLT 管道在初始化状态下受到攻击

我有一个 DLT 管道,它通过从 sql server 读取数据来创建 Delta 表,然后我们调用几个 api 来更新 cosmos 中的元数据。每当我们启动它时,它就会进入初始化状态......

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.