apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

错误 SparkContext:无法添加文件 java.io.FileNotFoundException:找不到 Spark 的 Jar

请根据我使用的代码帮助我修复上述错误 proccesing_data.py代码用于使用spark-streaming处理数据 导入日志记录 从 pyspark.sql 导入 SparkSession 来自 pys...

回答 1 投票 0

Spark SQL 中的 CROSS APPLY 替代方案

我正在将 SQL 存储过程从 SQL Server 迁移到 Spark SQL。 SP中的语句之一使用了CROSS APPLY,但spark没有CROSS APPLY。我研究了一下,发现INNER JOIN可以用...

回答 1 投票 0

为什么Spark的explode函数比平面地图函数分割数组慢很多?

我是 Spark 和 Spark SQL 的新手。我有一个包含 2 列的数据集,“col1”和“col2”,“col2”最初是一个长整型序列。我想将“col2”分解为多行,以便每一行只有一个...

回答 1 投票 0

我有一个 pyspark 情况,我有 4 个表,需要图像中提到的预期结果

第2步:四个表的样本数据 data_01 = [(787, 10, 1, 2024, '0202410IN D600000787', '7987979')] 数据_02 = [ (787, 10, 2, 2024, '00007870202410111439000000000', '7987979jk'), (787, 10, 2, ...

回答 1 投票 0

如何用Spark高效读取多个parquet小文件?有CombineParquetInputFormat吗?

Spark 生成了多个小 parquet 文件。如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件。

回答 2 投票 0

如何在pyspark中用字典替换单行中的多个值?

我有一个专栏叫水果。每行的格式为 ["apple","banana","mango"]。我有一本包含 {oldvalue:newvalue} 的字典。我想更换appl...

回答 1 投票 0

如何使用 PySpark 处理单列中的多种日期格式?

我正在 PySpark 中使用一个 DataFrame,其中包含一个名为 datdoc 的列,该列具有多种日期格式,如下所示: 数据文档 24 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 24 年 9 月 7 日 2 月 7 日...

回答 1 投票 0

无法在 conda windows 中启动 Spark 会话

我无法在 Windows conda 虚拟 python 环境中启动 Spark 会话。但是,几天前我能够成功执行此语句,安装后没有任何问题......

回答 1 投票 0

spark SQL中IF和IFF有什么区别?

这两个函数的文档实际上是相同的。 请参阅 IF 和 IFF。 运行时(在 DBR 13.3 中,但这并不重要): 选择 如果(1 = 1,'a','b'),如果(1 = 0,'a','b'), 我...

回答 1 投票 0

在 pyspark 中左连接两个排序的数据帧

我有两个数据框,它们按某一列排序,这也是连接键。 是否可以合并这两个数据帧,并在 O(n+m) 时间内返回排序后的数据帧?我不在乎它是否没有完成

回答 1 投票 0

PySpark:使用 .count() 时抛出错误“Column”对象不可调用

我正在使用 PySpark DataFrame 并尝试计算每列中空值的数量。我尝试了以下表达式: [col(c).isNull().count() for c in df.columns] 抛出错误: ---...

回答 1 投票 0

单个小文件的Parquet分区策略及读取优化

我有一个 5 到 100Mb 数据的镶木地板文件。 当我尝试在日期列上创建分区时,会创建多个文件,这会降低读取性能,因为有很多...

回答 1 投票 0

如何在 PySpark 中高效读取多个跳过行和页脚的 CSV 文件?

我有几个 CSV 文件,它们的数据行数量不一致,没有标题行,我想将这些文件读入单个 PySpark DataFrame。 CSV 文件的结构如下: ...

回答 1 投票 0

创建数据框时如何强制字符串格式(JSON)

我正在与 PySpark 战斗。我有一本关于 Python 的字典,名为 data,例如 { "key1": "xx:xx:xx", “key2”:“xxxxxxxxxxx”, “key9”:“

回答 1 投票 0

在 PySpark 中使用 rangeBetween 考虑几个月而不是几天

我正在研究如何将这段 SQL 代码转换为 PySpark 语法。 选择平均值(某个值)超过( 按 yyyy_mm_dd 排序 前一行和当前行 3 个月的间隔范围 ) 一个...

回答 2 投票 0

Spark 从多个 SQL 数据库并行读取

我有一个场景,需要将多个 SQL 数据库(每个数据库都有自己的端点和连接)中的大型数据集加载到 Spark 集群中。考虑到这些数据集的大小(数十亿行......

回答 1 投票 0

spark 中的哈希函数

我正在尝试向数据框中添加一列,其中将包含另一列的哈希值。 我找到了这篇文档: https://spark.apache.org/docs/2.3.0/api/sql/index.html#hash 并尝试过...

回答 3 投票 0

季度最后一天

有没有办法在 PySpark 中本地选择每个季度的最后一天?例如,在包含两列的 df 中 - yyyy_mm_dd 和 sum。我如何返回每个季度最后一天的总和?...

回答 2 投票 0

Java Spark 地图为空

java Spark数据集中有一列类型为map,如何使用java Spark检查此映射的列是否为空或具有某些值。 我想过滤数据集...

回答 1 投票 0

表分区列的最大值 vs 同表的显示分区结果的最大值

假设我有一个包含客户订单的表,(仅)按 date_transaction 分区。我想找到 date_transaction 的最大值。 以前,我只是运行spark.sql("SELE...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.