apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

Spark AQE Post-Shuffle 分区合并无法按预期工作，甚至会导致某些分区中的数据倾斜。为什么？

我在 Spark DF 上使用全局排序，当我启用 AQE 和后洗牌合并时，排序操作后的分区分布比以前更差。 “spark.sql.adaptive.enabled...

apache-spark apache-spark-sql spark-kafka-integration spark3

回答 2 投票 0

澄清 Spark 物理计划交换哈希分区中“[id=#]”的含义

在查看 Spark 物理计划以查找代码中的任何瓶颈时，我偶然发现了一个出现在分区阶段的 ID。 +- *(2) 排序 [Column#46 ASC NULLS FIRST], true, 0 +-

python apache-spark pyspark apache-spark-sql bigdata

回答 1 投票 0

如何组织 Apache Spark 项目

我是 Spark 新手，我想了解如何最好地设置项目。我将使用 Maven 进行构建（包括测试）。我编写了第一个 Spark 应用程序，但要在开发期间启动它，...

java apache-spark apache-spark-sql

回答 3 投票 0

如何克服spark java.lang.OutOfMemoryError：Java堆空间和java.lang.OutOfMemoryError：GC开销限制超出问题？

我正在尝试联接操作，这里表1有3GB的数据，表2有120GB的数据。为了避免随机播放表 1。执行时我收到这些错误：原因是：...

apache-spark pyspark apache-spark-sql hive spark-streaming

回答 1 投票 0

如何在sparksql中按名称应用union，而不是union或union all

当我在旧的 Sparksql 版本中运行查询时，例如从中选择 * （选择 10 作为学生类型，“亨利”作为学生姓名联盟选择 'tom' 作为学生姓名，90 作为学生类型，）；然后我...

apache-spark apache-spark-sql

回答 1 投票 0

如何在 Databricks SQL 中创建和使用地图

我想创建一个地图并在同一个 SQL 查询中使用它。我正在尝试类似的东西从table1中选择sample_map[t1.col1]，t1.col2作为t1，（选择map（1,2,3,4））作为sample_map group by t1.col2;

apache-spark-sql databricks databricks-sql

回答 1 投票 0

Spark 选项：inferSchema vs header = true

参考pyspark：spark.read.format("csv") 与spark.read.csv 的性能差异我想我需要 .options("inferSchema" , "true") 和 .option("header", "true") 来打印我的

csv apache-spark header apache-spark-sql schema

回答 2 投票 0

如何使用 Spark 数据框获取每周和每小时发生的行数？

我想返回一周中每个小时发生事件的次数（按天和小时分组）。使用 Spark DataFrame，我可以获得带有“dateOccurred”字符串的返回行列表

apache-spark pyspark apache-spark-sql

回答 1 投票 0

了解数据块中最不常见的类型

我正在阅读数据类型规则并发现了最不常见的类型。我有个疑问。 STRING 和 INT 最不常见的类型是什么？引用的链接给出了以下示例，至少......

apache-spark-sql databricks azure-databricks

回答 1 投票 0

[Fabric][Delta Tables]“不允许在 Microsoft Fabric 中使用 Apache Spark 为 [Lakehouse] 创建数据库。”如何解决这个问题？

我在 Fabric 上遇到了一个情况。我有一个工作正常的工作区，上面已经有一些笔记本和一些增量表。突然，每当我尝试对我的增量运行查询时

pyspark apache-spark-sql fabric delta-lake data-lakehouse

回答 1 投票 0

在Spark Dataframe中实现Window的重叠分区

我的情况是这样的：我有一个由符号（分类）值的时间序列组成的数据框。它看起来类似于： idx 符号分区 0 一个 0 ...

apache-spark pyspark time-series apache-spark-sql

回答 2 投票 0

加入 2 个 pyspark 数据帧并继续运行窗口总和和最大值

我有两个 Spark 数据框数据框_1： +----------------------------+------+---------+--- --+ |时间戳|目标|counter_1|max_1| +----------------------------+------+---------+-.. .

dataframe apache-spark pyspark apache-spark-sql

回答 1 投票 0

spark Streaming 和 kafka 集成依赖问题

我正在尝试编写一个脚本，通过 Spark Streaming 从 kafka 读取数据，但是当我运行“sbtcompile”时，出现此错误： sbt.librarymanagement.ResolveException：下载 org.ap 时出错...

scala apache-kafka apache-spark-sql sbt

回答 1 投票 0

如何在Apache Spark Thrift服务器中设置incrementalCollect的行批量大小？

我在 Thrift 服务器（Spark 3.1.2）中启用了 Spark.sql.thriftServer.incrementalCollect 以防止 OutOfMemory 异常。这工作得很好，但我的查询现在真的很慢。我检查了日志并且...

apache-spark apache-spark-sql thrift spark-thriftserver

回答 1 投票 0

将选择性列插入到 pyspark 数据框中

我有一个具有以下架构的数据框： col1 作为 col1，第 2 栏，第 3 栏，。。列号我有另一个具有以下架构的数据框 col1 作为 diffName，第 n+1 列，第 n+2 列。。。我如何附加 val...

pyspark apache-spark-sql

回答 1 投票 0

在 PySpark 中保留 parquet 文件名

我正在使用 Spark 读取一个包含 2 个分区的镶木地板文件，以便应用一些处理，让我们以这个例子为例 ├── 用户数据 │ ├── 地区=欧盟 ├── 国家=法国 ├─-

apache-spark pyspark apache-spark-sql databricks parquet

回答 1 投票 0

PySpark：数据帧到 .rdd 抛出错误

我正在尝试将 DF 转换为 RDD，但它抛出错误：JavaObject 不可调用。我遵循了这方面的教程，并尝试了几种不同的方法来尝试让它发挥作用。我相信...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

如何对两列进行分组并使用 pyspark 计算出每个分组列的平均总值

我有以下 DataFrame 并使用 Pyspark，我试图得到以下答案：总票价（按选择）按选择的总小费按选择平均阻力平均拖拽挑选降低票价提示拖 1 1 4.00...

python pyspark apache-spark-sql

回答 1 投票 0

通过 PartitionBy 数据帧将 Pyspark 数据帧写入镶木地板变得非常慢

我有一个 pyspark 数据帧，它执行多个 groupby、pivot 类型的转换，当我在应用所有提到的转换后获得最终数据帧时。通过

python apache-spark pyspark apache-spark-sql pyspark-pandas

回答 1 投票 0

将 3 个字母的月份列转换为 Databricks SQL 中的月份数字

我有一列月份 - 一月、二月、三月、四月等。我想查询数据并对结果集进行排序，但有月份名称会很困难。如何将 3 个字母的月份更改为一个月

apache-spark-sql azure-databricks

回答 1 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.