Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。
Spark AQE Post-Shuffle 分区合并无法按预期工作,甚至会导致某些分区中的数据倾斜。为什么?
我在 Spark DF 上使用全局排序,当我启用 AQE 和后洗牌合并时,排序操作后的分区分布比以前更差。 “spark.sql.adaptive.enabled...
澄清 Spark 物理计划交换哈希分区中“[id=#]”的含义
在查看 Spark 物理计划以查找代码中的任何瓶颈时,我偶然发现了一个出现在分区阶段的 ID。 +- *(2) 排序 [Column#46 ASC NULLS FIRST], true, 0 +-
我是 Spark 新手,我想了解如何最好地设置项目。我将使用 Maven 进行构建(包括测试)。 我编写了第一个 Spark 应用程序,但要在开发期间启动它,...
如何克服spark java.lang.OutOfMemoryError:Java堆空间和java.lang.OutOfMemoryError:GC开销限制超出问题?
我正在尝试联接操作,这里表1有3GB的数据,表2有120GB的数据。为了避免随机播放表 1。 执行时我收到这些错误: 原因是:...
如何在sparksql中按名称应用union,而不是union或union all
当我在旧的 Sparksql 版本中运行查询时,例如 从中选择 * (选择 10 作为学生类型,“亨利”作为学生姓名 联盟 选择 'tom' 作为学生姓名,90 作为学生类型, ); 然后我...
我想创建一个地图并在同一个 SQL 查询中使用它。我正在尝试类似的东西 从table1中选择sample_map[t1.col1],t1.col2作为t1,(选择map(1,2,3,4))作为sample_map group by t1.col2;
Spark 选项:inferSchema vs header = true
参考pyspark:spark.read.format("csv") 与spark.read.csv 的性能差异 我想我需要 .options("inferSchema" , "true") 和 .option("header", "true") 来打印我的
我想返回一周中每个小时发生事件的次数(按天和小时分组)。使用 Spark DataFrame,我可以获得带有“dateOccurred”字符串的返回行列表
我正在阅读数据类型规则并发现了最不常见的类型。 我有个疑问。 STRING 和 INT 最不常见的类型是什么?引用的链接给出了以下示例,至少......
[Fabric][Delta Tables]“不允许在 Microsoft Fabric 中使用 Apache Spark 为 [Lakehouse] 创建数据库。”如何解决这个问题?
我在 Fabric 上遇到了一个情况。我有一个工作正常的工作区,上面已经有一些笔记本和一些增量表。突然,每当我尝试对我的增量运行查询时
在Spark Dataframe中实现Window的重叠分区
我的情况是这样的: 我有一个由符号(分类)值的时间序列组成的数据框。它看起来类似于: idx 符号分区 0 一个 0 ...
加入 2 个 pyspark 数据帧并继续运行窗口总和和最大值
我有两个 Spark 数据框 数据框_1: +----------------------------+------+---------+--- --+ |时间戳|目标|counter_1|max_1| +----------------------------+------+---------+-.. .
spark Streaming 和 kafka 集成依赖问题
我正在尝试编写一个脚本,通过 Spark Streaming 从 kafka 读取数据,但是当我运行“sbtcompile”时,出现此错误: sbt.librarymanagement.ResolveException:下载 org.ap 时出错...
如何在Apache Spark Thrift服务器中设置incrementalCollect的行批量大小?
我在 Thrift 服务器(Spark 3.1.2)中启用了 Spark.sql.thriftServer.incrementalCollect 以防止 OutOfMemory 异常。这工作得很好,但我的查询现在真的很慢。我检查了日志并且...
我有一个具有以下架构的数据框: col1 作为 col1, 第 2 栏, 第 3 栏, 。 。 列号 我有另一个具有以下架构的数据框 col1 作为 diffName, 第 n+1 列, 第 n+2 列 。 。 。 我如何附加 val...
我正在使用 Spark 读取一个包含 2 个分区的镶木地板文件,以便应用一些处理,让我们以这个例子为例 ├── 用户数据 │ ├── 地区=欧盟 ├── 国家=法国 ├─-
我正在尝试将 DF 转换为 RDD,但它抛出错误:JavaObject 不可调用。 我遵循了这方面的教程,并尝试了几种不同的方法来尝试让它发挥作用。我相信...
如何对两列进行分组并使用 pyspark 计算出每个分组列的平均总值
我有以下 DataFrame 并使用 Pyspark,我试图得到以下答案: 总票价(按选择) 按选择的总小费 按选择平均阻力 平均拖拽 挑选 降低 票价 提示 拖 1 1 4.00...
通过 PartitionBy 数据帧将 Pyspark 数据帧写入镶木地板变得非常慢
我有一个 pyspark 数据帧,它执行多个 groupby、pivot 类型的转换,当我在应用所有提到的转换后获得最终数据帧时。通过
将 3 个字母的月份列转换为 Databricks SQL 中的月份数字
我有一列月份 - 一月、二月、三月、四月等。 我想查询数据并对结果集进行排序,但有月份名称会很困难。 如何将 3 个字母的月份更改为一个月