databricks 相关问题

有关Databricks统一分析平台的问题

Pyspark 将不同行中的列按另一列合并为单行顺序

我有一个数据框,有 2 列 CLMN_SEQ_NUM 和 CLMN_NM。我正在尝试将列 CLMN_NM 合并为以逗号分隔的单行。 所需的操作数 PR_NAME、PR_ID、PR_ZIP、PR_ADDRESS、PR_COUNTRY

回答 2 投票 0

Databricks 作业无法从 github 存储库访问笔记本

我在 Databricks 中创建了一个作业,并配置为使用启用单用户访问并使用 github 作为源的集群。当我尝试运行该作业时,出现以下错误 - 运行失败

回答 1 投票 0

databricks 复制到 xml 文件中

我正在尝试将一些原始 XML 文件从 azure blob 存储加载到增量表。 我已经安装了 blob 容器。 我的代码是: 创建表青铜.my_xml_data; 复制到青铜.my_xml_data 弗...

回答 1 投票 0

在 Databricks 集群上“永久”安装多个库

我使用多个库,目前我在每个笔记本中运行命令 pip install x y z 来使用它们。当我在多个笔记本中这样做时,这不是最方便的方法,它使得

回答 1 投票 0

我需要一个databricks sql查询来分解数组列,然后根据数组中的值的数量转换为动态列数

我有一个 json 数据,其中位置是使用以下值导出的数组列 [“美国”、“中国”、“印度”、“英国”] [“尼泊尔”、“中国”、“在...

回答 2 投票 0

连接两个 pyspark 数据帧,其中 df1 列是 ArrayType,df2 是 IntegerType

我有两个带有 IntegerType 列的 pyspark 数据帧 df1 和带有collect_set 列的 df2。 我想加入两者,以便对于 df2 的每组,df1 中的所有行都应位于同一组中。 我有...

回答 1 投票 0

如何使用 Fugue 将 databricks 表加载到 databricks 笔记本中?

我正在测试 Fugue 库,以比较其与纯 PySpark 相比的优势,为此我希望能够使用 Fugue 严格测试不同的操作。 虽然我已经可以使用F了...

回答 1 投票 0

如何将 pyspark Dataframe 保存到 Databricks 中可下载的 excel 文件

将 pandas 导入为 pd 导入 xlsxwriter pandasDf=REV_COMP_DF.toPandas() pandasDf.to_excel('/tmp/revenue.xlsx',engine='xlsxwriter',header=True) dbutils.fs.mv('文件:/tmp/revenue.xlsx','结果/收入....

回答 1 投票 0

合并到更新/插入

我在合并到databricks笔记本中的大量数据集时遇到问题。 如何将合并转换为脚本来更新/插入? 目标表 = f""" 合并到 {

回答 1 投票 0

有人知道如何在Databricks中显示pandas数据框吗?

以前我有一个 pandas 数据框,我可以使用以下方法在 Databricks 中将其显示为表格: df.display() Pandas 已更新至 v2.0.0。今天,当我运行 df.dis 时,我收到以下错误...

回答 4 投票 0

Azure Databricks 发布管道访问问题

情况: 我想发布 Databricks 工作区、集群、作业和笔记本。 一切都通过 VS Code 和 AZ Login 进行。 当我运行 Azure Devops Pipeline 时,出现以下错误。 错误:无法读取 j...

回答 1 投票 0

如何在Databricks SparkSQL中使用Try Catch实现错误处理

有没有办法在 Spark-SQL 中实现 try Catch (不在 Pyspark 中),如下所示在 databricks 中。 我尝试实现但遇到语法问题。任何示例代码将不胜感激。 开始...

回答 1 投票 0

使用 FastAPI 在 Databricks 中创建表 - Python 代码

我正在开发一个FastApi,它假设根据JSON格式的请求进行一些计算,然后发送响应并将其存储在几个Databricks目录表中。 所以,在 API 中,我...

回答 1 投票 0

DBFS 和 databrciks 卷之间的区别

DBFS 和卷有什么区别? 卷属于 DBFS 还是在架构方面到底属于什么? 我想了解卷的位置以及它们的优势...

回答 1 投票 0

DataBricks PySpark withColumn() 第一次成功后失败

我正在使用 Python/PySpark 在 DataBricks 中工作。我有几个复制单个输入列的输出列。输出列之一是大写或混合大小写 i 的小写版本...

回答 1 投票 0

Databricks 中的自动加载器

如果自动加载器读取文件并且写入失败,下次运行流时会发生什么?它会忽略这些文件还是会在流媒体过程中再次出现? 我试图阅读并...

回答 1 投票 0

如果该表后来转换为 Parquet 表,对 Delta 表进行 Zorder 会影响性能吗?

我是 Delta 桌子的所有者,一些消费者希望将其复制为镶木地板桌子。由于种种原因,我公司内部有些人不会使用达美航空。我已将此 Delta 表按 Z 排序为

回答 1 投票 0

如何从Databricks中的Delta表导出数据并写入txt文件

我有一个包含 20 列和大约 523 万行的增量表。有些列是复杂的数据类型。我想从表中导出数据并使用带标题的 python 写入 .txt 文件...

回答 1 投票 0

pyspark XML 读取生成空数据帧

我正在尝试使用 pySpark 读取 XML 文件。问题是,它产生空数据帧。我能够毫无问题地读取不同的文件。 XML 结构如下: 我正在尝试使用 pySpark 读取 XML 文件。问题是,它产生空数据帧。我能够毫无问题地读取不同的文件。 这是 XML 结构: <?xml version="1.0"?> <TAG1> <TAG2 id="ID1"> <field1>some value</field1> <field2>some value</field2> <field3></field3> </TAG2> <TAG2 id="ID2"> <field1>some value</field1> <field2></field2> <field3></field3> </TAG2> <TAG2 id="ID3"> <field1>some value</field1> <field2>some value</field2> <field3>some value</field3> </TAG2> </TAG1> 我在读取文件时尝试了不同的选项,但没有一个有效。 df = spark.read \ .format('com.databricks.spark.xml') \ .options(rowTag='TAG2') \ .options(nullValue='') \ .options(emptyValue='') \ .load(xmlFile) 更新: 我将文件内容复制到一个新文件,保存并加载,没有任何问题。 看来原始文件引起了问题。我尝试在读取选项中放入各种编码,但仍然无法加载原始文件。 文件恰好以 UTF-16 编码,但设置此编码并没有解决问题。我仅在传递另一个参数后才成功加载文件 - charset。 df = spark.read \ .format('com.databricks.spark.xml') \ .options(rowTag='TAG2') \ .options(nullValue='') \ .options(encoding='UTF-16LE') \ .options(charset='UTF-16') \ .load(xmlFile)

回答 1 投票 0

Databricks 中的单元测试框架

导入单元测试 从 pyspark.sql 导入 SparkSession 从 pyspark.sql.functions 导入 col、count、when # 创建数据框 Spark_df = Spark.sql('从 dna_scr_l3.vw_dna_cdm_md_bom 选择 *') c...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.