databricks 相关问题

有关Databricks统一分析平台的问题

Databricks 命名“目录”和“数据库”而不是“数据库”和“架构”的基本原理

Databricks 将事物称为“目录”和“数据库”而不是更标准的“数据库和模式”有什么理由吗? 他们所说的数据库基本上是一个模式:它可以包含ta...

回答 1 投票 0

在统一目录中显示依赖于外部位置的对象

在使用 Databricks 时,我需要删除外部位置。 我运行 SHOW EXTERNAL LOCATIONS 并得到以下结果: 之后我运行 DROP EXTERNAL LOCATION gold_prd 接收错误:

回答 1 投票 0

无法从 Databricks 笔记本在 ADLS 中执行并行写入操作。 OSError:[Errno 107] 传输端点未连接

在数据帧上的 foreach() 中执行写入操作时遇到此错误。这段代码在 3 个多月内运行良好,但从上周开始出现故障。 为了提供一些背景信息,我...

回答 1 投票 0

PYSPARK - 在多个列上加入 nullsafe

假设我们有两个数据帧,我们想要将它们与左反连接进行比较: 数据1 = [ (1、11、20、无)、 (2, 12, 22, 31), ] 数据2 = [ (1、11、20、无)、 (2, 1...

回答 2 投票 0

使用 pyspark 从具有键值对的 json 对象的嵌套数组中删除字段

使用pyspark从具有键值对(empval)的json对象的嵌套数组中删除id字段 输入 +----------+--------+---------------------------- ------------------------------------------------------...

回答 1 投票 0

sc 并行化功能不适用于 Unity 目录

我们的这段代码在 databricks 运行时 10 上运行良好 request_url = https://.com/?fct=获取 response_task = requests.get(url=request_url, headers=headers) db1 = Spark.sparkContext.parallelize([

回答 1 投票 0

在读取时将分区分配给执行器

火花 > 3.0 数据记录器13.2 我有一些大型增量表,所有这些表都连接在同一个唯一的整数 id 上。 贷款 统一ID 贷款编号 截止日期 1 ABC 2023-01-01 2 计算机辅助设计 2023-01-02 3 EFG 202...

回答 1 投票 0

在Databricks中创建REST api,向用户显示增量表信息?

我想在 Azure Databricks 中创建一个 API 端点,用于向用户发布增量表数据。我通过搜索发现没有 REST API 来公开增量表内容。是真的吗?

回答 2 投票 0

根据时间戳识别重叠记录并删除 pyspark 中的旧重叠

这是一个pyspark重叠时间段问题: 样本数据 数据 = [ (1、“2024-01-28T05:00:00Z”、“2024-01-28T06:00:00Z”、“1/24/24”), (1、“2024-01-28T05...

回答 1 投票 0

SQL 语句错误: AnalysisException: 未找到表或视图:

我刚刚开始使用 Hive。我正在 Databricks 社区工作。我用 python 编写,但想用 SQL 编写一些东西,但有一个我无法理解的错误。我看不出我有什么问题...

回答 1 投票 0

Databricks 作业无法从 github 存储库访问笔记本:“无法访问笔记本...”

我在 Databricks 中创建了一个作业,并配置为使用启用单用户访问并使用 github 作为源的集群。当我尝试运行该作业时,出现以下错误 - 运行失败

回答 1 投票 0

如何从pyspark中的xml中读取嵌套元素?

如何从pyspark中的xml中读取嵌套元素?

回答 1 投票 0

Spark 数据框中值为“-”的日期列

我在数据块中有一个日期列,其值“-”代表 1 条记录。我无法将其过滤掉或选择此行。我如何在 where 子句中使用这个值“-”? 我努力了

回答 1 投票 0

如何将 Spark DataFrame 转换为 Pandas DataFrame?

在databricks中,我创建了一个spark数据框,需要将其转换为pandas数据框, sdf = Spark.sql('从 my_tbl 中选择 *') pdf = sdf.toPandas() 但出现错误: ArrowInvalid:从

回答 2 投票 0

用于开发和生产的databricks资产包集群

我正在使用 Databricks 捆绑包,我有一个开发和生产环境。我有一个看起来像这样的 yaml: # yaml-语言-服务器:$schema=bundle_config_schema.json 捆: 名称: 婴儿名字

回答 1 投票 0

如何将spark DataFrame转换为pandas DataFrame?

在databricks中,我创建了一个spark数据框,需要转换为pandas数据框, sdf = Spark.sql('从 my_tbl 中选择 *') pdf = sdf.toPandas() 但出现错误: ArrowInvalid:从时代铸造...

回答 1 投票 0

如何删除 Spark 中的倾斜分区?

我构建了一个具有 17-20 个连接的 Spark SQL 查询。我的驱动表大小约为 40GiB,其他 2-3 个表的数据为 1-2 TB,其他表的数据约为 3-4GiB。我尝试了这份工作,没有 16...

回答 1 投票 0

通过机器学习避免 PySpark 中的 for 循环

我在 PySpark 中有一个 for 循环,可以迭代超市的不同产品,但需要很长时间。我知道 for 循环在 Spark 中效率很低,但我不知道该怎么做......

回答 1 投票 0

PySpark 和 Databricks addFile 和 SparkFiles.get 异常 java.io.FileNotFoundException

我正在努力: 将 SSL 证书从 S3 加载到集群。 addFile 以便所有节点都能看到该文件。 使用 JDBC 创建到 IBM db2 的连接 URL。 步骤 1 和步骤 2 运行成功。我可以...

回答 1 投票 0

按创建日期获取不同的行

我正在使用这样的数据框: 设备编号 |创建日期 |姓名 1001 | 1001 2018 年 1 月 1 日 |测试装置 1001 | 1001 2019 年 6 月 30 日 |设备 100...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.