Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。
错误 SparkContext:无法添加文件 java.io.FileNotFoundException:找不到 Spark 的 Jar
请根据我使用的代码帮助我修复上述错误 proccesing_data.py代码用于使用spark-streaming处理数据 导入日志记录 从 pyspark.sql 导入 SparkSession 来自 pys...
我正在将 SQL 存储过程从 SQL Server 迁移到 Spark SQL。 SP中的语句之一使用了CROSS APPLY,但spark没有CROSS APPLY。我研究了一下,发现INNER JOIN可以用...
为什么Spark的explode函数比平面地图函数分割数组慢很多?
我是 Spark 和 Spark SQL 的新手。我有一个包含 2 列的数据集,“col1”和“col2”,“col2”最初是一个长整型序列。我想将“col2”分解为多行,以便每一行只有一个...
我有一个 pyspark 情况,我有 4 个表,需要图像中提到的预期结果
第2步:四个表的样本数据 data_01 = [(787, 10, 1, 2024, '0202410IN D600000787', '7987979')] 数据_02 = [ (787, 10, 2, 2024, '00007870202410111439000000000', '7987979jk'), (787, 10, 2, ...
如何用Spark高效读取多个parquet小文件?有CombineParquetInputFormat吗?
Spark 生成了多个小 parquet 文件。如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件。
我有一个专栏叫水果。每行的格式为 ["apple","banana","mango"]。我有一本包含 {oldvalue:newvalue} 的字典。我想更换appl...
我正在 PySpark 中使用一个 DataFrame,其中包含一个名为 datdoc 的列,该列具有多种日期格式,如下所示: 数据文档 24 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 24 年 9 月 7 日 2 月 7 日...
无法在 conda windows 中启动 Spark 会话
我无法在 Windows conda 虚拟 python 环境中启动 Spark 会话。但是,几天前我能够成功执行此语句,安装后没有任何问题......
这两个函数的文档实际上是相同的。 请参阅 IF 和 IFF。 运行时(在 DBR 13.3 中,但这并不重要): 选择 如果(1 = 1,'a','b'),如果(1 = 0,'a','b'), 我...
我有两个数据框,它们按某一列排序,这也是连接键。 是否可以合并这两个数据帧,并在 O(n+m) 时间内返回排序后的数据帧?我不在乎它是否没有完成
PySpark:使用 .count() 时抛出错误“Column”对象不可调用
我正在使用 PySpark DataFrame 并尝试计算每列中空值的数量。我尝试了以下表达式: [col(c).isNull().count() for c in df.columns] 抛出错误: ---...
我有一个 5 到 100Mb 数据的镶木地板文件。 当我尝试在日期列上创建分区时,会创建多个文件,这会降低读取性能,因为有很多...
如何在 PySpark 中高效读取多个跳过行和页脚的 CSV 文件?
我有几个 CSV 文件,它们的数据行数量不一致,没有标题行,我想将这些文件读入单个 PySpark DataFrame。 CSV 文件的结构如下: ...
我正在与 PySpark 战斗。我有一本关于 Python 的字典,名为 data,例如 { "key1": "xx:xx:xx", “key2”:“xxxxxxxxxxx”, “key9”:“
在 PySpark 中使用 rangeBetween 考虑几个月而不是几天
我正在研究如何将这段 SQL 代码转换为 PySpark 语法。 选择平均值(某个值)超过( 按 yyyy_mm_dd 排序 前一行和当前行 3 个月的间隔范围 ) 一个...
我有一个场景,需要将多个 SQL 数据库(每个数据库都有自己的端点和连接)中的大型数据集加载到 Spark 集群中。考虑到这些数据集的大小(数十亿行......
我正在尝试向数据框中添加一列,其中将包含另一列的哈希值。 我找到了这篇文档: https://spark.apache.org/docs/2.3.0/api/sql/index.html#hash 并尝试过...
有没有办法在 PySpark 中本地选择每个季度的最后一天?例如,在包含两列的 df 中 - yyyy_mm_dd 和 sum。我如何返回每个季度最后一天的总和?...
java Spark数据集中有一列类型为map,如何使用java Spark检查此映射的列是否为空或具有某些值。 我想过滤数据集...
假设我有一个包含客户订单的表,(仅)按 date_transaction 分区。我想找到 date_transaction 的最大值。 以前,我只是运行spark.sql("SELE...