apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

如何读取apache Spark中最新的分区

我使用了包含查询的数据框 df : Dataframe =spark.sql(s"显示分区 $yourtablename") 现在分区的数量每天都在变化,因为它每天都在运行。 主要...

回答 3 投票 0

如何使用 PySpark 将另一列中包含的列名称替换为该列的值?

我有一个 PySpark 数据框,如下所示: ID 第 1 列 列2 可乐 科尔B id_1 %可乐 < %colA int1 int3 Id_2 %colB t < %colB int2 int4 I want to replace strings starting with % with it's corresponding

回答 1 投票 0

如何使用databricks执行深度克隆以将数据从一个Datalake迁移到另一个Datalake?

我正在尝试使用深度克隆将数据从 Azure Data Lake 迁移到 S3。源Data Lake中的数据以Parquet格式存储并分区。我尝试按照

回答 1 投票 0

查找列不匹配的行

我怎样才能找到两列不相等的行(就像熊猫一样)? 数据= [(“约翰”,“多伊”),(无,“多伊”),(“约翰”,无),(无,无)] df = sp...

回答 2 投票 0

DataFrame.dropDuplicates 可以用来只保留 Spark 中的最新数据吗?

我在 Spark 中有一个按时间排序的 Dataframe,如下所示: id值时间 1 个 2024-01-01 00:00:00 2 2024-01-01 00:00:00 2 乙 2024-01-03 00:00:00 1 b ...

回答 1 投票 0

DataFrame.dropDuplicates 在 Spark 中表现如何?

我在 Spark 中有一个按时间排序的 Dataframe,如下所示: id值时间 1 个 2024-01-01 00:00:00 2 2024-01-01 00:00:00 2 乙 2024-01-03 00:00:00 1 b ...

回答 1 投票 0

PYSPARK - 在多个列上加入 nullsafe

假设我们有两个数据帧,我们想要将它们与左反连接进行比较: 数据1 = [ (1、11、20、无)、 (2, 12, 22, 31), ] 数据2 = [ (1、11、20、无)、 (2, 1...

回答 2 投票 0

SparkSQL DELETE 命令不会删除 Apache Iceberg 中的一行,不是吗?

我使用 Spark SQL 3.0 和 scala_2.12。我将数据插入到iceberg表中并成功从表中读取数据。当我尝试通过spark SQL从表中删除一条错误的记录时,日志显示

回答 1 投票 0

Spark 中的 SQL 子查询问题

嗨,我有一个 SQL 查询如下。当我在 PostgreSQL 查询工具中运行相同的查询时,它工作正常。但是当我在 Spark SQL 中尝试它时,它在 Spark 日志中显示以下错误 val SQLDF = 火花。

回答 1 投票 0

如何在同一个glue任务中用处理结果替换数据源

我想处理A中的一些数据,并用处理后的结果替换A。 write() 操作完成后,我可以在任何“地方”做一些事情吗?或者有什么办法可以替代原来的d...

回答 1 投票 0

Pyspark - 创建一个 json 列,其键来自另一个 CSV 列

输入数据集如下所示 |编号 |领域 | f1 | f2 | f3 | f4 | | -------- | -------- | -------- | -------- | -------- | -------- | | 1 ...

回答 1 投票 0

我们如何将有长度的数字数据类型迁移到spark sql支持的数据类型

我们正在将 azure sql 视图迁移到 delta 格式文件以保存为表,最重要的是,我们正在创建统一目录,如果 numeric(12,0) 在 sql server 中,我们必须使用类似类型的数据 ty ...

回答 1 投票 0

如何从pyspark中的xml中读取嵌套元素?

如何从pyspark中的xml中读取嵌套元素?

回答 1 投票 0

如何转换所发布问题的数据集?

我想寻求一些帮助来解决我现在面临的问题。给定数据集: df = Spark.createDataFrame([ ('2024-01-01', 1, 23), ('2024-01-02', 1, 43), ('2024-01-03'...

回答 1 投票 0

如何删除 Spark 中的倾斜分区?

我构建了一个具有 17-20 个连接的 Spark SQL 查询。我的驱动表大小约为 40GiB,其他 2-3 个表的数据为 1-2 TB,其他表的数据约为 3-4GiB。我尝试了这份工作,没有 16...

回答 1 投票 0

如何通过 AWS Glue 上的 PySpark 使用 JDBC 驱动程序?

如何通过 AWS Glue 上的 PySpark 使用 JDBC 驱动程序? 在我学习的过程中,需要执行以下步骤: 1 - 下载带有 .jar 扩展名的 jdbc 驱动程序 2 - 保存到 S3 存储桶 3 - 在

回答 1 投票 0

返回数据帧中满足一个条件的行,同时修复另一列的值

我有一个如下所示的数据框: 类型 |年份|电影数 戏剧|2015| 705 浪漫|2015| 203 喜剧 |2015 |第586章 戏剧|2014| 605 浪漫|2014| 293 喜剧 |2014 |第786章 我...

回答 1 投票 0

pyspark 列总和与转置

我有一个数据框,看起来像 - +---+---+---+---+ |编号| w1| w2| w3| +---+---+---+---+ | 1|100|150|200| | 2|200|400|500| | 3|500|600|150| +---+---+---+---+ 我想要的输出看起来像 - 满

回答 2 投票 0

spark sql中正则表达式不以字符开头,后跟特定模式

我需要帮助查找不以特定字符串开头的字符串,第二部分应在任何位置包含特定字符串且应包含 4 个点 目前我正在这样做。需要打赌...

回答 1 投票 0

如何在 Spark 中解码 HTML 实体?

我正在将大量文本文件读入数据帧。最初它只有一列:值。文本文件使用 HTML 编码(即,它们有 < 而不是 <, etc.). I wa...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.