databricks 相关问题

有关Databricks统一分析平台的问题

如何使用 pysaprk 替换基于其他数据帧的数据帧中的值

我的数据块笔记本中有两个数据框。例如数据如下所示: df1: 身份证号码 1 200/300A/200B 2 805/805B/500 df2: id 805 200B 现在我想用 df2 替换 df1 名称...

回答 1 投票 0

使用Databricks通用集群获取spark作业名称

我正在构建从各种远程系统收集数据到中央 Spark 集群的系统。我使用 Delta 格式保存本地数据。 收藏完后,我想得到col的数量...

回答 1 投票 0

如何使用 Databricks dbutils 删除文件夹中的所有文件

有人可以让我知道如何使用 databricks dbutils 删除文件夹中的所有文件。 我已尝试以下操作,但不幸的是,Databricks 不支持通配符。 dbutils.fs.rm('adl://

回答 7 投票 0

在 Azure Databricks 中使用 ai_query 函数与 us-east 的无服务器 SQL 仓库时出现问题

我正在尝试使用 ai_query 运行一个非常简单的测试来访问 Azure Databricks 中的 llama2,基本上我只是执行文档中给出的查询: 选择 ai_query( “databricks-lla...

回答 1 投票 0

用多个分隔符sql分割

我有一个用例,我需要用多个分隔符分割字符串。 客户ID 废话废话 布莱布莱赫 从 mytbl 选择 client_id ,split(client_id,'-')[0] col1` ,split(client_id,'-')[1] col2

回答 1 投票 0

无法使用 DBFS 文件 API 路径附加到 Databricks 中的 csv(不支持 OSError Errno 95 操作)

为什么我无法使用以下代码覆盖文件? 一些上下文:我注意到,假设我希望每次都创建并附加一个 .csv 文件,尽管我给出“a”(附加)作为写入模式,但...

回答 1 投票 0

使用Python加密Databricks中的列,同时保留原始数据类型

我正在使用Python在Databricks中开发一个数据安全项目,我需要对DataFrame中的某些列进行加密,同时确保加密的列保留其原始数据类型。我已经

回答 1 投票 0

OSError:[Errno 95]使用 DBFS 文件 API 路径编写 pandas 数据帧时,Databricks 中不支持操作

代码和错误的屏幕截图 为什么我无法使用下面的代码再次编写, 只是为了给您一些背景信息,我注意到,假设我想每次创建并附加一个 .csv 文件,w...

回答 1 投票 0

从 Azure 容器读取输入 CSV 文件时,如何在 Databricks 中使用 PySpark 动态传递列名称

我有一个输入文件employee.csv,存储在包含“Empid”、“Ename”、“Esalary”列的容器中,并且我使用这3个列在databicks delta Lake中创建了一个目标表

回答 1 投票 0

在架构中使用特定类型时,加载保存的 df 后 Databricks 值为空

我在使用databricks时遇到一个问题,当我在模式中设置特定类型并读取json时,它的值很好,但是在保存我的df并再次加载后,该值消失了。 我有这个...

回答 1 投票 0

Databricks / AZURE 中的授权标头问题(到 Blob 存储或 ADLS1 或 ADLS2)

由 cousera DP203 上的 Databricks、AZURE 上的 Databricks 托管服务提供的代码: %fs 头 /mnt/training/wikipedia/pageviews/pageviews_by_second.tsv 这是行不通的。它给: Azure异常:

回答 1 投票 0

MongoDB 中的数据类型未通过 databricks Pyspark 更改(从字符串到日期)

我正在尝试使用 databricks pyspark 将多个文档加载到 MongoDb 集合中,在加载时我也使用 updateDate 归档,但加载后我可以看到 updateDate 字段数据

回答 1 投票 0

使用 Scala API 设置 TBLProperties

我正在使用模式覆盖将数据写入表中 由于我的列名中有特殊字符,我需要为列映射设置以下三个属性。 'delta.minReaderVersion' = '2', '

回答 2 投票 0

Spark 异常:没有凭证范围

我是 Databricks 新手,正在尝试从我的通用计算集群连接到 Rstudio Server。 以下是集群配置: 政策:个人电脑 访问模式:单用户 数据块...

回答 1 投票 0

Azure Databricks CLI - 在立即运行的作业中传递笔记本参数

我最近在运行下面的命令时遇到了通过 pip 安装的旧版 dbx databricks cli 的问题,不知何故,环境变量中传递的笔记本参数没有被获取。 数据块...

回答 2 投票 0

如何将数据框结果放入Excel的不同工作表中并将其存储在databrciks中自己的DBFS文件夹中

有没有一种方法可以将两个不同的数据帧结果放入一个 csv 文件中并将其存储在自己的 databrikcs 文件夹中。 所以基本上我有 DF1(结果集)和 DF2(结果计数),我想保留这两个

回答 1 投票 0

Delta Live Table - 无法重新定义数据集

我是 Delta Live Table 的新手。 我正在尝试从 databricks 教程创建一个增量实时表。 我创建了一个笔记本并附加了一个交互式集群 -DBR 14.3-LTS。 我正在运行...

回答 1 投票 0

`databricks labs ucx` 对 azure cloud shell 的依赖性问题

我正在尝试在 Azure Cloud Shell 上安装 Databricks labs ucx。 但是,ucx 需要 Databricks CLI v0.213 或更高版本。 ucx 还需要 Python 3.10+,但 Azure Cloud Shell 上仅提供 3.9。 在

回答 1 投票 0

类型错误:无法合并类型 <class 'pyspark.sql.types.LongType'> 和 <class 'pyspark.sql.types.StringType'>

我有一个数据框df。我想将其转换为 Spark 数据框。所以我用运行时版本7的databricks编写了它 df_s=spark.createDataFrame(df) 但我收到错误消息 类型错误:值...

回答 1 投票 0

无法合并数据块中的类型<class 'pyspark.sql.types.StringType'>和<class 'pyspark.sql.types.LongType'>

我有一个数据框df。我想将其转换为 Spark 数据框。所以我用运行时版本7的databricks编写了它 df_s=spark.createDataFrame(df) 但我收到错误消息 类型错误:值...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.