databricks 相关问题

有关Databricks统一分析平台的问题

如何将数据插入到具有更改架构的增量表中

在 databricks Scala 中,我正在分解 Map 列并将其加载到增量表中。我有一个增量表的预定义架构。 假设该模式有 4 个列 A、B、C、D。 所以,第一天我正在加载...

回答 1 投票 0

Databricks - 如何避免 Delta 表中的重复记录

我们的数据项目中有一个用例,其中通过实时流媒体来自源系统的源可能会检测到某些问题,并再次重新发送相同的交易,并带有一个指示的标志

回答 1 投票 0

Azure 数据工厂触发 Databricks 集群终止

我有一个场景,我必须从 ADF 管道触发 Databricks 通用集群的终止。 实现这一目标的最佳方法是什么?我尝试使用链接服务...

回答 1 投票 0

Databricks:动态 SQL |如何合并查询列表中的所有查询?

我正在开发一个遵循databricks中动态SQL逻辑的想法。目的是节省体力劳动。 我有一个表,其中存储了我将在动态 SQL 查询中使用的所有参数。那个...

回答 1 投票 0

如何在 Pyspark 中使用复杂数据类型

当我有一个数据框并且它有一个列名称是属性并且属性类型是时,我遇到以下问题 |-- 属性:字符串(可空 = true) 在那一栏中我有这样的价值观...

回答 1 投票 0

将存储库从 AzureDevOps 克隆/复制到 Databricks

我需要使用服务主体(服务连接)创建或将存储库从 Azure DevOps 复制到 Azure Databricks,而无需询问秘密值,因为我不允许(安全性)...

回答 1 投票 0

Pyspark 3.5:Databricks 14.3 ML LTS 运行时对于相同代码给出不同的结果

我正在 Databricks 14.3 ML LTS 集群上运行以下代码。我正在执行从 Databricks 10.4 ML LTS 到 14.3 ML LTS 的代码迁移的验证任务。 窗口_c = ( 窗户() .

回答 1 投票 0

如何将数据框作为表保存到databricks数据库

我使用下面的代码将ms sql表保存到databricks表。 驱动程序=“com.microsoft.sqlserver.jdbc.SQLServerDriver” 数据库主机=“我的服务器名称” 数据库端口=“1433&qu...

回答 1 投票 0

无效子查询:标量子查询必须仅返回一列

当我在数据块中运行此查询时,出现以下错误 [INVALID_SUBQUERY_EXPRESSION.SCALAR_SUBQUERY_RETURN_MORE_THAN_ONE_OUTPUT_COLUMN] 无效子查询:标量子查询必须仅返回一个

回答 1 投票 0

从 databricks jdbc 连接读取数据到 redshift 时出错

我们使用 databricks 集群,在 30 分钟不活动后关闭(13.3 LTS(包括 Apache Spark 3.4.1、Scala 2.12))。 我的目标是读取红移表并将其写入雪花,我是

回答 1 投票 0

如何将 pyspark 中每列的映射数组合并到单个映射中

我已经关注了这个问题,但那里的答案对我不起作用 我不想要为此使用 UDF 并且 map_concat 对我不起作用。 还有其他方法可以合并地图吗? 例如 ID 价值 1 地图(k1...

回答 1 投票 0

如何确定 Databricks Apache Spark 上是否已安装函数

我们遇到了极其缓慢的 Databricks SQL 查询。我发现一个网站提供了许多 Spark SQL 优化调优技术 https://www.linkedin.com/pulse/spark-sql-

回答 1 投票 0

在 Databricks 中面临 python udf 的问题

我正在 PySpark 中处理分层数据,其中每个员工都有一个经理,我需要找到每个员工的所有内联经理。内联经理被定义为男人的经理......

回答 1 投票 0

在 Spark 中读取 .csv 文件时如何将第二行视为标题

我想跳过第一行并从第二行开始考虑,我使用标题起始位置为2,跳过行为1,但它不起作用,因为它也将第二行作为数据加载。有人可以请...

回答 1 投票 0

窗口函数 LEAD 不是下一个

我在 DATABRICKS 中有一个库存变动情况,其中一行用于生产输入,另一行用于产品取消。 移动 产品 运动类型 约会时间 数量 1 1 进入 2024年5月-...

回答 1 投票 0

未找到键:{columnName}#{randomNumber}

我在databricks中的Spark中有以下查询- 选择 bu.tenant_id、bu.service_location_id、bu.account_id、bu.commodity_type、bu.commodity_usage、bu.commodity_units、bu.charges、bu.billed_usage_start、bu。

回答 1 投票 0

收到错误消息 NameError: name 'over' is not Define 。即使在完成所有必要的导入之后

emp_data_df.withColumn("Row_Number",row_number(),over(window))\ .withColumn("Rank",rank(),over(window))\ .withColumn("Dense_Rank",dense_rank(),over(窗口))\ .过滤器(c...

回答 1 投票 0

GlusterFs 砖只读

我想将 gluster 卷的旧砖块设为只读,并仅在它们已满后将其删除,然后扩展我的卷以添加新砖块。我可以找到设置整个 glu 的 feature.read-only 选项...

回答 1 投票 0

net.snowflake.client.jdbc.SnowflakeSQLException:JWT 令牌无效

我无法使用databricks中的pyspark连接雪花。 def readFromSnowflake(): 私钥=“” sf选项 = { “sfURL”:“挥洒......

回答 2 投票 0

如何从 Excel 执行 Azure data bricks 笔记本

有没有办法从Excel触发Azure数据砖笔记本,如果有请帮助我如何..? 非常感谢

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.