apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

Spark AQE Post-Shuffle 分区合并无法按预期工作,甚至会导致某些分区中的数据倾斜。为什么?

我在 Spark DF 上使用全局排序,当我启用 AQE 和后洗牌合并时,排序操作后的分区分布比以前更差。 “spark.sql.adaptive.enabled...

回答 2 投票 0

澄清 Spark 物理计划交换哈希分区中“[id=#]”的含义

在查看 Spark 物理计划以查找代码中的任何瓶颈时,我偶然发现了一个出现在分区阶段的 ID。 +- *(2) 排序 [Column#46 ASC NULLS FIRST], true, 0 +-

回答 1 投票 0

如何组织 Apache Spark 项目

我是 Spark 新手,我想了解如何最好地设置项目。我将使用 Maven 进行构建(包括测试)。 我编写了第一个 Spark 应用程序,但要在开发期间启动它,...

回答 3 投票 0

如何克服spark java.lang.OutOfMemoryError:Java堆空间和java.lang.OutOfMemoryError:GC开销限制超出问题?

我正在尝试联接操作,这里表1有3GB的数据,表2有120GB的数据。为了避免随机播放表 1。 执行时我收到这些错误: 原因是:...

回答 1 投票 0

如何在sparksql中按名称应用union,而不是union或union all

当我在旧的 Sparksql 版本中运行查询时,例如 从中选择 * (选择 10 作为学生类型,“亨利”作为学生姓名 联盟 选择 'tom' 作为学生姓名,90 作为学生类型, ); 然后我...

回答 1 投票 0

如何在 Databricks SQL 中创建和使用地图

我想创建一个地图并在同一个 SQL 查询中使用它。我正在尝试类似的东西 从table1中选择sample_map[t1.col1],t1.col2作为t1,(选择map(1,2,3,4))作为sample_map group by t1.col2;

回答 1 投票 0

Spark 选项:inferSchema vs header = true

参考pyspark:spark.read.format("csv") 与spark.read.csv 的性能差异 我想我需要 .options("inferSchema" , "true") 和 .option("header", "true") 来打印我的

回答 2 投票 0

如何使用 Spark 数据框获取每周和每小时发生的行数?

我想返回一周中每个小时发生事件的次数(按天和小时分组)。使用 Spark DataFrame,我可以获得带有“dateOccurred”字符串的返回行列表

回答 1 投票 0

了解数据块中最不常见的类型

我正在阅读数据类型规则并发现了最不常见的类型。 我有个疑问。 STRING 和 INT 最不常见的类型是什么?引用的链接给出了以下示例,至少......

回答 1 投票 0

[Fabric][Delta Tables]“不允许在 Microsoft Fabric 中使用 Apache Spark 为 [Lakehouse] 创建数据库。”如何解决这个问题?

我在 Fabric 上遇到了一个情况。我有一个工作正常的工作区,上面已经有一些笔记本和一些增量表。突然,每当我尝试对我的增量运行查询时

回答 1 投票 0

在Spark Dataframe中实现Window的重叠分区

我的情况是这样的: 我有一个由符号(分类)值的时间序列组成的数据框。它看起来类似于: idx 符号分区 0 一个 0 ...

回答 2 投票 0

加入 2 个 pyspark 数据帧并继续运行窗口总和和最大值

我有两个 Spark 数据框 数据框_1: +----------------------------+------+---------+--- --+ |时间戳|目标|counter_1|max_1| +----------------------------+------+---------+-.. .

回答 1 投票 0

spark Streaming 和 kafka 集成依赖问题

我正在尝试编写一个脚本,通过 Spark Streaming 从 kafka 读取数据,但是当我运行“sbtcompile”时,出现此错误: sbt.librarymanagement.ResolveException:下载 org.ap 时出错...

回答 1 投票 0

如何在Apache Spark Thrift服务器中设置incrementalCollect的行批量大小?

我在 Thrift 服务器(Spark 3.1.2)中启用了 Spark.sql.thriftServer.incrementalCollect 以防止 OutOfMemory 异常。这工作得很好,但我的查询现在真的很慢。我检查了日志并且...

回答 1 投票 0

将选择性列插入到 pyspark 数据框中

我有一个具有以下架构的数据框: col1 作为 col1, 第 2 栏, 第 3 栏, 。 。 列号 我有另一个具有以下架构的数据框 col1 作为 diffName, 第 n+1 列, 第 n+2 列 。 。 。 我如何附加 val...

回答 1 投票 0

在 PySpark 中保留 parquet 文件名

我正在使用 Spark 读取一个包含 2 个分区的镶木地板文件,以便应用一些处理,让我们以这个例子为例 ├── 用户数据 │ ├── 地区=欧盟 ├── 国家=法国 ├─-

回答 1 投票 0

PySpark:数据帧到 .rdd 抛出错误

我正在尝试将 DF 转换为 RDD,但它抛出错误:JavaObject 不可调用。 我遵循了这方面的教程,并尝试了几种不同的方法来尝试让它发挥作用。我相信...

回答 1 投票 0

如何对两列进行分组并使用 pyspark 计算出每个分组列的平均总值

我有以下 DataFrame 并使用 Pyspark,我试图得到以下答案: 总票价(按选择) 按选择的总小费 按选择平均阻力 平均拖拽 挑选 降低 票价 提示 拖 1 1 4.00...

回答 1 投票 0

通过 PartitionBy 数据帧将 Pyspark 数据帧写入镶木地板变得非常慢

我有一个 pyspark 数据帧,它执行多个 groupby、pivot 类型的转换,当我在应用所有提到的转换后获得最终数据帧时。通过

回答 1 投票 0

将 3 个字母的月份列转换为 Databricks SQL 中的月份数字

我有一列月份 - 一月、二月、三月、四月等。 我想查询数据并对结果集进行排序,但有月份名称会很困难。 如何将 3 个字母的月份更改为一个月

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.