apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

输入： ID 第一次约会最后日期价值观 1 2023-12-10 2023-12-14 2,4,6,7,8 2 2024-01-12 2023-12-21 0,0,16,2,7,0,1,1,2,3 预期输出： ID 第一次日期和最后一次日期价值 1 2023-12-10 2 1 2023-12-11 ...

python sql pyspark apache-spark-sql

回答 1 投票 0

如何在Spark中不读取输出表的情况下查看DataFrameWriter save()的最终写入结果？

现在我使用Scala + Spark将我的DataFrame: df写入KustoCluster，我刚刚发现DataFrameWriter.save()没有回调选项，这是我的代码 var writer = df.wr...

dataframe scala apache-spark apache-spark-sql

回答 1 投票 0

Pyspark 性能改进

我在 PySpark df 中使用以下代码：对于 df.columns 中的 col： df = df.withColumn(col, F.rank()over(Window.orderBy((col)))) 由于我的 df 有 2k 列，因此时间效率很低。怎么...

python pyspark apache-spark-sql

回答 1 投票 0

使用 Spark Mongo 连接器从 Mongo 读取数据时如何删除或跳过不匹配的数据类型

我正在尝试使用 Spark Mongo 连接器从 Mongo 读取数据，尝试加载 100M+ 行。有谁知道如果使用预定义架构存在数据类型不匹配，我如何忽略行？有一些

mongodb apache-spark pyspark apache-spark-sql delta-lake

回答 1 投票 0

将多个分区规范写入 Apache Iceberg 表

我想编写一个具有与默认表设置不同的分区规范的 Iceberg 表，以便当我运行数据压缩时，数据将根据默认规范进行压缩（如

apache-spark apache-spark-sql apache-iceberg

回答 1 投票 0

从 pyspark 将表描述添加到 Iceberg 表

我能够使用 trino 将表注释添加到 Iceberg 表中，使用以下 trino 命令：表iceberg.table_schema.table_name 上的评论是“我的评论” 也可以从 p...

python pyspark apache-spark-sql hive apache-iceberg

回答 1 投票 0

如何将 Azure SQL Server 列数据类型长度迁移到支持的 Spark SQL

我们正在尝试将azure SQL迁移到spark支持的SQL，但迁移SQL视图时存在差异，存在列数据类型长度与spark SQL不匹配，因此我们的SAS报告...

apache-spark pyspark apache-spark-sql azure-sql-database azure-databricks

回答 1 投票 0

给定csv数据，我想知道“2018年哪一周（这里的周表示日期中的dd）接到最多的火灾电话”？

我的问题是我尝试使用这个sql语句解决查询选择 to_char(CallDate,"dd") 周 ,count(to_char(CallDate,"dd")) 作为 demo_db.fire_service_calls_tbl ...

apache-spark-sql

回答 1 投票 0

如果元素包含hive/SparkSQL中指定的字符串，则过滤掉数组元素

我有如下所示的示例数据，我想提取仅具有名称及其完整键而不是 dep_names 及其完整键的元素。我正在尝试像下面这样的东西，与数据集AS （ S...

sql arrays json apache-spark-sql hive

回答 1 投票 0

需要帮助查找与 SAS 代码等效的 Spark SQL 代码

我有一段代码需要从 SAS 转换为 Spark SQL。我想知道SAS中的等效函数是什么 SAS 代码：数据新表；放 SOURCE_TABLE1 SOURCE_TABLE2 ; 罗...

sql apache-spark-sql sas databricks code-conversion

回答 1 投票 0

根据spark中的列值分割数据集

我正在尝试根据制造商列内容将数据集拆分为不同的数据集。它很慢请建议一种改进代码的方法，以便它可以更快地执行并减少

java apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0

回答 3 投票 0

有没有办法在不使用collect()的情况下将数据帧值收集为列表

我面临着如何在不使用收集方法的情况下有效过滤 Spark DataFrame 的挑战，这可能会导致大型数据集上的性能问题。具体来说，我需要过滤

dataframe apache-spark apache-spark-sql

回答 1 投票 0

PySpark 错误：java.lang.NoSuchMethodError：'scala.collection.immutable.Seq org.apache.spark.sql.types.StructType.toAttributes()'

我正在尝试从 PySpark 连接到我的 MongoDB 数据库。 $ pyspark --packages org.mongodb.spark:mongo-spark-connector_2.13:10.1.1 我安装的版本： Python 3.9 斯卡拉：2.12.15 火花：3.3.2 在

mongodb scala apache-spark pyspark apache-spark-sql

回答 2 投票 0

将 JSON 嵌套到 Azure DataBricks 上的 Flat PySpark Dataframe

我有以下 PySpark 数据框：结构类型([ StructField('数据', ArrayType(StructType([ StructField('awayPlayers', ArrayType(StructType([ StructField('数字', StringType(), Tru...

python dataframe apache-spark pyspark apache-spark-sql

回答 2 投票 0

如何为行子组 pyspark 随机化不同的数字

我有一个 pyspark 数据框。我需要在给定条件下随机化从列表中获取的所有行的值。我做了： df = df.withColumn('rand_col', f.when(f.col('condition_col') == 条件，随机....

apache-spark pyspark apache-spark-sql

回答 1 投票 0

错误 MicroBatchExecution - PySpark：将数据帧写入 Elasticsearch

我正在尝试使用 PySpark 将流写入 Elasticsearch。我有两个从 Kafka 读取的数据帧并加入到 df_joined 中。将 df_joined 打印到终端会显示正确的列和 v...

apache-spark elasticsearch pyspark apache-spark-sql

回答 1 投票 0

spark.read.parquet 和spark.read.format.load 之间的速度差异

我试图了解是什么导致了阅读速度的巨大差异。我有一个包含 3000 万行和 38 列的数据框。 Final_df=spark.read.parquet("/dbfs/FileStore/path/to/file.