apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

Redshift 到 SparkSQL

选择 案件 当 d.深度 = 'Level_4' 时 '/' || RTRIM(TRIM(SPLIT_PART(bbn.edge_path_name, '/', 3) || '/' || SPLIT_PART(bbn.edge_path_name, '/', 4) || '/' || SPLIT_PART(bbn.edge_path_name, '/ ', 5) ...

回答 1 投票 0

CREATE TABLE 不会覆盖位置,而 CREATE OR REPLACE TABLE 会覆盖

我正在开发 Azure Databricks,Databricks 运行时版本为 - 14.3 LTS(包括 Apache Spark 3.5.0、Scala 2.12)。我面临以下问题。 假设我有一个名为 v1 的视图和一个

回答 1 投票 0

WHERE 条件中的 UPPER 在 Apache Spark 3.5.0 中对于 Mysql ENUM 列不起作用

我已经将我的spark作业从spark 3.3.1升级到spark 3.5.0,我正在查询Mysql数据库并应用 UPPER(列) = UPPER(值) 在后续的sql查询中。它在 Spark 中按预期工作......

回答 1 投票 0

在 Spark 中将日期转换为 ISO 周日期

在一列中有日期,如何创建包含 ISO 周日期的列? ISO 周日期由年份、周数和工作日组成。 年份与使用年份函数获得的年份不同...

回答 4 投票 0

如何将带有新列的 Dataframe 合并到 Spark 中的 Hudi 表中

我有一个 Hudi 表来源,例如: 编号ab 1 123 321 2 美国广播公司 CBA 3 456 654 以及由其他一些文件生成的数据框修改,例如: 编号 a b c 1xx...

回答 1 投票 0

spark优化规则顺序

我们知道spark有很多优化规则,这些优化规则有具体的排序要求吗?决定这些命令的原则是什么? 更具体地说,例如...

回答 1 投票 0

Athena/iceberg MERGE INTO 未在同一键上同时应用 DELETE 和 UPDATE

我想将临时表合并到主表中,临时表如下所示 名称 |编号 |钥匙 ID |事件名称 |事件时间 一个 | 1 | 1 |插入 | 1 乙| 1 | 1 |修改...

回答 1 投票 0

如何使用pyspark将数据帧的大小增加5倍

我有一个大约有 500 万行的数据框。如何以编程方式将数据帧的大小增加 5 倍以进行一些性能测试。下面是数据框的示例。

回答 1 投票 0

有没有办法在pyspark/sql databricks中创建uniqueidentifier类型的列?

我们正在将存储过程从 Synapse 迁移到 Databricks。 因此,在突触中有一个表,其中有一列“uniqueidentifier”类型。当我们对此列突触进行 MAX 计算时...

回答 1 投票 0

无法使用 Apache Spark 依赖项构建 JavaFX 应用程序

我已将一些 Apache Spark 依赖项添加到我的 JavaFX 项目中,但现在它已损坏。 Java SDK 11 依赖项: Spark-sql_2.13 (3.5.0) 火花核心_2.13 (3.5.0) 单义解析器 (2.9.1) 我有十二月...

回答 1 投票 0

如何操作数据框以获取原始列广告数据中的数据

我从这里报告的示例开始“https://stackoverflow.com/questions/19664313/how-to-have-query-return-samples-of-row-values-as-columns” 事实上,我找到一个没有问题

回答 1 投票 0

运行 show() 两次对于 Dataframe 的 rand() 函数给出相同的结果

下面生成的随机数按预期每行都不同。如此精细。但我显然在思考中缺少一些基本方面。 从 pyspark.sql 将函数导入为 F df = 火花....

回答 2 投票 0

如何拆分原始数据框并将其合并在一起

我有一个包含 230 列和 10 行的数据框(假设是 OriginalDf)。 我需要根据列数(例如 = 150)将其拆分,即 df1 有 150 列,df2 有 80 列。 当我合并它时...

回答 1 投票 0

如何使用 pyspark 从 Dataframe 列中删除方括号

我有 Dataframe df ,列名称是如下文本,我想从中删除方括号 输入 [gh].[ijndd] [hyf] dfvc.gfth [] [ ] 输出 gh.ijnd 哈夫 dfvc.gfth 无效的 无效的 空

回答 1 投票 0

SparkSQL 将每一行与前面最近的项目相加

我有一个如下所示的数据框。 +--------+--------+-----+--------------------+ |产品|地点|编号| TS| +--------+--------+-----+--------------------+ | 1|...

回答 1 投票 0

Spark 从特定位置读取表

我使用以下代码将数据框保存为表格: yearly_calltype.write.option("path", "/home/user/tables/firstProject").saveAsTable('yearly_calltype_count') 但是嗬...

回答 1 投票 0


使用 Apache Spark 和 Scala 的 SQL 事务

有了IP数据框和更新状态,我们首先需要从SQL表中删除数据框的IP。之后,我们应该使用 Spark SQL 插入具有更新状态的数据框。

回答 1 投票 0

胶水作业从 Redshift 读取大量数据时出现性能问题

我正在尝试运行查询以通过 AWS Glue 作业从 redshift 表中读取数据。当它从表中读取数据时,它创建只有 1 个分区的数据帧,并且需要花费大量时间来读取......

回答 1 投票 0

如何将 Spark 表从一种模式传输到另一种模式?

是否可以将 Spark 中的表从一个命名空间转移到另一个命名空间,就像我们通过命令 ALTER SCHEMA new_schema_name TRANSFER 更改 SQL Server 中表的架构一样

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.