apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

将各个值映射到各个日期

输入: ID 第一次约会 最后日期 价值观 1 2023-12-10 2023-12-14 2,4,6,7,8 2 2024-01-12 2023-12-21 0,0,16,2,7,0,1,1,2,3 预期输出: ID 第一次日期和最后一次日期 价值 1 2023-12-10 2 1 2023-12-11 ...

回答 1 投票 0

如何在Spark中不读取输出表的情况下查看DataFrameWriter save()的最终写入结果?

现在我使用Scala + Spark将我的DataFrame: df写入KustoCluster,我刚刚发现DataFrameWriter.save()没有回调选项,这是我的代码 var writer = df.wr...

回答 1 投票 0

Pyspark 性能改进

我在 PySpark df 中使用以下代码: 对于 df.columns 中的 col: df = df.withColumn(col, F.rank()over(Window.orderBy((col)))) 由于我的 df 有 2k 列,因此时间效率很低。怎么...

回答 1 投票 0

使用 Spark Mongo 连接器从 Mongo 读取数据时如何删除或跳过不匹配的数据类型

我正在尝试使用 Spark Mongo 连接器从 Mongo 读取数据,尝试加载 100M+ 行。 有谁知道如果使用预定义架构存在数据类型不匹配,我如何忽略行?有一些

回答 1 投票 0

将多个分区规范写入 Apache Iceberg 表

我想编写一个具有与默认表设置不同的分区规范的 Iceberg 表,以便当我运行数据压缩时,数据将根据默认规范进行压缩(如

回答 1 投票 0

从 pyspark 将表描述添加到 Iceberg 表

我能够使用 trino 将表注释添加到 Iceberg 表中,使用以下 trino 命令: 表iceberg.table_schema.table_name 上的评论是“我的评论” 也可以从 p...

回答 1 投票 0

如何将 Azure SQL Server 列数据类型长度迁移到支持的 Spark SQL

我们正在尝试将azure SQL迁移到spark支持的SQL,但迁移SQL视图时存在差异,存在列数据类型长度与spark SQL不匹配,因此我们的SAS报告...

回答 1 投票 0

给定csv数据,我想知道“2018年哪一周(这里的周表示日期中的dd)接到最多的火灾电话”?

我的问题是我尝试使用这个sql语句解决查询 选择 to_char(CallDate,"dd") 周 ,count(to_char(CallDate,"dd")) 作为 demo_db.fire_service_calls_tbl ...

回答 1 投票 0

如果元素包含hive/SparkSQL中指定的字符串,则过滤掉数组元素

我有如下所示的示例数据,我想提取仅具有名称及其完整键而不是 dep_names 及其完整键的元素。 我正在尝试像下面这样的东西, 与数据集AS ( S...

回答 1 投票 0

需要帮助查找与 SAS 代码等效的 Spark SQL 代码

我有一段代码需要从 SAS 转换为 Spark SQL。我想知道SAS中的等效函数是什么 SAS 代码: 数据新表; 放 SOURCE_TABLE1 SOURCE_TABLE2 ; 罗...

回答 1 投票 0

根据spark中的列值分割数据集

我正在尝试根据制造商列内容将数据集拆分为不同的数据集。它很慢请建议一种改进代码的方法,以便它可以更快地执行并减少

回答 3 投票 0

有没有办法在不使用collect()的情况下将数据帧值收集为列表

我面临着如何在不使用收集方法的情况下有效过滤 Spark DataFrame 的挑战,这可能会导致大型数据集上的性能问题。具体来说,我需要过滤

回答 1 投票 0

PySpark 错误:java.lang.NoSuchMethodError:'scala.collection.immutable.Seq org.apache.spark.sql.types.StructType.toAttributes()'

我正在尝试从 PySpark 连接到我的 MongoDB 数据库。 $ pyspark --packages org.mongodb.spark:mongo-spark-connector_2.13:10.1.1 我安装的版本: Python 3.9 斯卡拉:2.12.15 火花:3.3.2 在

回答 2 投票 0

将 JSON 嵌套到 Azure DataBricks 上的 Flat PySpark Dataframe

我有以下 PySpark 数据框: 结构类型([ StructField('数据', ArrayType(StructType([ StructField('awayPlayers', ArrayType(StructType([ StructField('数字', StringType(), Tru...

回答 2 投票 0

如何为行子组 pyspark 随机化不同的数字

我有一个 pyspark 数据框。我需要在给定条件下随机化从列表中获取的所有行的值。我做了: df = df.withColumn('rand_col', f.when(f.col('condition_col') == 条件,随机....

回答 1 投票 0

错误 MicroBatchExecution - PySpark:将数据帧写入 Elasticsearch

我正在尝试使用 PySpark 将流写入 Elasticsearch。我有两个从 Kafka 读取的数据帧并加入到 df_joined 中。将 df_joined 打印到终端会显示正确的列和 v...

回答 1 投票 0

spark.read.parquet 和spark.read.format.load 之间的速度差异

我试图了解是什么导致了阅读速度的巨大差异。我有一个包含 3000 万行和 38 列的数据框。 Final_df=spark.read.parquet("/dbfs/FileStore/path/to/file.

回答 1 投票 0

Spark SQL 中的 JSON 爆炸(将所有键转换为列)

我有如下数据。我希望所有键都转换为列(表结构由与 json 键相同的列组成)。我希望所有值都反映在行中。 使用数据集 AS ( 选择...

回答 1 投票 0

org.apache.spark.sql.catalyst.parser.ParseException:不匹配的输入“来自”期望<EOF>

我在 pyspark sql 中遇到以下错误。 org.apache.spark.sql.catalyst.parser.ParseException: 输入“来自”期望不匹配(第 9 行,位置 4) 选择a.appl_sta, a.appl_pcnvendorcode, a.

回答 1 投票 0

使用 python 将空列添加到 Spark 中的数据框

我有一个数据框,我想将其与另一个数据框创建 unionAll。问题是第二个数据框比第一个数据框多了三列。有没有办法让我添加三个列...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.