databricks 相关问题

有关Databricks统一分析平台的问题

在 Databricks 中面临 python udf 的问题

我正在 PySpark 中处理分层数据,其中每个员工都有一个经理,我需要找到每个员工的所有内联经理。内联经理被定义为男人的经理......

回答 1 投票 0

在 Spark 中读取 .csv 文件时如何将第二行视为标题

我想跳过第一行并从第二行开始考虑,我使用标题起始位置为2,跳过行为1,但它不起作用,因为它也将第二行作为数据加载。有人可以请...

回答 1 投票 0

窗口函数 LEAD 不是下一个

我在 DATABRICKS 中有一个库存变动情况,其中一行用于生产输入,另一行用于产品取消。 移动 产品 运动类型 约会时间 数量 1 1 进入 2024年5月-...

回答 1 投票 0

未找到键:{columnName}#{randomNumber}

我在databricks中的Spark中有以下查询- 选择 bu.tenant_id、bu.service_location_id、bu.account_id、bu.commodity_type、bu.commodity_usage、bu.commodity_units、bu.charges、bu.billed_usage_start、bu。

回答 1 投票 0

收到错误消息 NameError: name 'over' is not Define 。即使在完成所有必要的导入之后

emp_data_df.withColumn("Row_Number",row_number(),over(window))\ .withColumn("Rank",rank(),over(window))\ .withColumn("Dense_Rank",dense_rank(),over(窗口))\ .过滤器(c...

回答 1 投票 0

GlusterFs 砖只读

我想将 gluster 卷的旧砖块设为只读,并仅在它们已满后将其删除,然后扩展我的卷以添加新砖块。我可以找到设置整个 glu 的 feature.read-only 选项...

回答 1 投票 0

net.snowflake.client.jdbc.SnowflakeSQLException:JWT 令牌无效

我无法使用databricks中的pyspark连接雪花。 def readFromSnowflake(): 私钥=“” sf选项 = { “sfURL”:“挥洒......

回答 2 投票 0

如何从 Excel 执行 Azure data bricks 笔记本

有没有办法从Excel触发Azure数据砖笔记本,如果有请帮助我如何..? 非常感谢

回答 1 投票 0

Pypark 附加分区会覆盖未分区的镶木地板

在Azure Databricks中,当我有一个未按某些列分区的镶木地板文件时。随后附加一个带有partitionBy("some_column")的新数据框,这是我原来的&q的数据......

回答 1 投票 0

是否有 PowerShell 命令来获取 Azure Databricks 工作区 URL

我正在尝试创建一个脚本,它需要来自 Databricks 工作区的用户和组详细信息,为了实现这一点,我需要运行 PowerShell 脚本,该脚本将从门户获取 databricks 详细信息...

回答 1 投票 0

是否可以在工作节点上运行操作系统命令?

我们目前从源接收 gzip 压缩的 csv 文件。我们发现在继续加载青铜级文件之前使用gunzip 命令解压缩文件的性能更高。 为了(某种程度上)实现并行性...

回答 1 投票 0

如何使用 SQL 将 Delta Lake 生成的列添加到现有表中?

尝试使用 SQL 添加 Delta Lake 生成的列,然后按它进行分区。我正在关注 Databricks 文档,其中提供了以下示例: 创建表事件( 事件 ID BIGINT...

回答 1 投票 0

使用 databricks 自动加载器从包含 .txt、.txt.parquet 和 .parquet 文件的 ADLS 目录中提取数据

我在 ADLS 中有一个位置,需要将数据从该位置提取到 Unity 目录中。 ADLS 中的此目录混合了 .txt、.txt.parquet 和 .parquet。 我正在使用自动装载机和镶木地板...

回答 1 投票 0

Pyspark 转换导致内存不足问题

所以我有一个带有多列的 Spark 数据框,这些列是复杂的结构。我正在尝试根据另一个结构中字段的值来转换其中一个结构列中字段的值

回答 1 投票 0

如何在顶部 csv 文件上创建临时视图

如何在顶部 csv 文件上创建临时视图。我正在 Azure Data bricks 中执行此视图创建。帮助我如何创建视图和读取数据。 我的数据如下所示: 德利米特:~ “1”~&quo...

回答 1 投票 0

在pyspark中并行化for循环;每次迭代一张表

我在 Databricks 中有几十个 Spark 表,大小在 ~1 到 ~20 GB 之间,并且想要在每个表上执行一个函数。由于每个结果之间不存在相互依赖性

回答 1 投票 0

从 Spark Databricks 写入 Azure Cosmos db 时数据丢失

我使用azure cosmos Spark连接器将数据帧从databricks发送到azure cosmos db中存在的图形集合,并编写https://github.com/Azure/azure-cosmosdb-

回答 1 投票 0

尝试从 Hive_MetaStore 查看示例数据时 Databricks“套接字已关闭”

尝试从 Hive_MetaStore 查看示例数据时,我不断收到错误“套接字已关闭”。 有人可以告诉我这个问题的原因是什么吗?

回答 1 投票 0

从在事件中心使用托管服务标识的 Azure Databricks Pyspark 笔记本连接到事件中心的代码是什么?

从 Databricks (Pyspark) 连接到事件中心的连接字符串模板是什么,其中从事件中心上的 Databricks 使用 MSI 身份验证 谢谢

回答 2 投票 0

如何从pyspark中的字符串类型数据帧列中提取单个键、值

数据框架构如下 根 |-- 名称:字符串(可空 = true) |-- 地址信息:字符串(可空 = true) 示例内容或address_info列如下 {[email protected]

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.