databricks 相关问题

有关Databricks统一分析平台的问题

Databricks 作业无法从 github 存储库访问笔记本:“无法访问笔记本...”

我在 Databricks 中创建了一个作业,并配置为使用启用单用户访问并使用 github 作为源的集群。当我尝试运行该作业时,出现以下错误 - 运行失败

回答 1 投票 0

如何从pyspark中的xml中读取嵌套元素?

如何从pyspark中的xml中读取嵌套元素?

回答 1 投票 0

Spark 数据框中值为“-”的日期列

我在数据块中有一个日期列,其值“-”代表 1 条记录。我无法将其过滤掉或选择此行。我如何在 where 子句中使用这个值“-”? 我努力了

回答 1 投票 0

如何将 Spark DataFrame 转换为 Pandas DataFrame?

在databricks中,我创建了一个spark数据框,需要将其转换为pandas数据框, sdf = Spark.sql('从 my_tbl 中选择 *') pdf = sdf.toPandas() 但出现错误: ArrowInvalid:从

回答 2 投票 0

用于开发和生产的databricks资产包集群

我正在使用 Databricks 捆绑包,我有一个开发和生产环境。我有一个看起来像这样的 yaml: # yaml-语言-服务器:$schema=bundle_config_schema.json 捆: 名称: 婴儿名字

回答 1 投票 0

如何将spark DataFrame转换为pandas DataFrame?

在databricks中,我创建了一个spark数据框,需要转换为pandas数据框, sdf = Spark.sql('从 my_tbl 中选择 *') pdf = sdf.toPandas() 但出现错误: ArrowInvalid:从时代铸造...

回答 1 投票 0

如何删除 Spark 中的倾斜分区?

我构建了一个具有 17-20 个连接的 Spark SQL 查询。我的驱动表大小约为 40GiB,其他 2-3 个表的数据为 1-2 TB,其他表的数据约为 3-4GiB。我尝试了这份工作,没有 16...

回答 1 投票 0

通过机器学习避免 PySpark 中的 for 循环

我在 PySpark 中有一个 for 循环,可以迭代超市的不同产品,但需要很长时间。我知道 for 循环在 Spark 中效率很低,但我不知道该怎么做......

回答 1 投票 0

PySpark 和 Databricks addFile 和 SparkFiles.get 异常 java.io.FileNotFoundException

我正在努力: 将 SSL 证书从 S3 加载到集群。 addFile 以便所有节点都能看到该文件。 使用 JDBC 创建到 IBM db2 的连接 URL。 步骤 1 和步骤 2 运行成功。我可以...

回答 1 投票 0

按创建日期获取不同的行

我正在使用这样的数据框: 设备编号 |创建日期 |姓名 1001 | 1001 2018 年 1 月 1 日 |测试装置 1001 | 1001 2019 年 6 月 30 日 |设备 100...

回答 2 投票 0

日期列中的序列/爆炸问题 - Pyspark

我在使用 SEQUENCE 和 EXPLODE 处理 DataFrame 时遇到问题,该 dataframe 有 3 列: 员工ID 聘用日期 离开日期 我正在生成一个序列以获取每月之间的记录...

回答 1 投票 0

“databricks -o json”空数组和“null”之间的输出不一致

尝试理解 Bash 中的一些奇怪行为。 我正在使用 CLI 包装器查询 API(databricks api),因此 API 请求是通过 CLI 格式的命令发送的。我正在使用 Bash 发送...

回答 1 投票 0

pyspark where 子句可以作用于不存在的列

我偶然注意到 pyspark 的奇怪行为。基本上,它可以对数据框中不存在的列执行 where 函数: 打印(火花.版本) df = Spark.read.format("csv&quo...

回答 1 投票 0

无法将“SparkXGBRegressorModel”记录到 Databricks 上的功能存储

我正在 Azure Databricks 上开发 MLOps 项目,在使用“SparkXGBRegressorModel”库训练模型后,我想将其记录到功能存储中。问题是使用 fs.log_...

回答 1 投票 0

如何更改我想要的表格形状?

这是我第一次问堆栈溢出 这是我的查询 选择 一个值, a.代码, a.kndnr 从 原始的 JOIN z_raw b ON a.code = b.zgrpc 在哪里 b.gubun = '09811' 并且c...

回答 1 投票 0

Databrick SQL - 填补最小和最大日期之间的差距

我正在 Azure Databricks Sql 上处理此示例数据,其中日期之间存在间隙。 based_date 列中的数据反映了数据存储在系统中的时间。然而,对于预期的

回答 1 投票 0

通过 DataBricks 将大量表下载到 ADLS 只是为了将其连接到较小的表,效率低下吗?

如果这个问题不明确,请告诉我,我可以提供更多详细信息。我的 DataBricks 环境附加到 Azure Synapse 实例。我们有大量的 ADLS 存储。第一部分...

回答 1 投票 0

Databricks 访问文件_元数据时出现问题

我正在尝试使用以下说明访问 _metadata 以获取文件修改时间: https://docs.databricks.com/en/ingestion/file-metadata-column.html 这是我的代码: df = Spark.read \ ...

回答 1 投票 0

在 Spark 结构化流中对 foreachBatch 操作应用定义的函数时出现 STREAMING_CONNECT_SERIALIZATION_ERROR

我正在使用 Spark 结构化流,但偶然发现了一个问题,但我看不到问题的根本原因和解决方案。 我定义了一个包含函数的 Reader 类

回答 1 投票 0

如何通过 Databricks 资产包重用集群

我使用 Databricks 资产包作为带有 databricks 的 IAC 工具。我想使用 DAB 创建一个集群,然后在多个作业中重复使用同一集群。我找不到这方面的例子。不管怎样

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.