apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

错误 SparkContext：无法添加文件 java.io.FileNotFoundException：找不到 Spark 的 Jar

请根据我使用的代码帮助我修复上述错误 proccesing_data.py代码用于使用spark-streaming处理数据导入日志记录从 pyspark.sql 导入 SparkSession 来自 pys...

python apache-spark-sql spark-streaming apache-kafka-connect spark-cassandra-connector

回答 1 投票 0

Spark SQL 中的 CROSS APPLY 替代方案

我正在将 SQL 存储过程从 SQL Server 迁移到 Spark SQL。 SP中的语句之一使用了CROSS APPLY，但spark没有CROSS APPLY。我研究了一下，发现INNER JOIN可以用...

sql sql-server apache-spark apache-spark-sql bigdata

回答 1 投票 0

为什么Spark的explode函数比平面地图函数分割数组慢很多？

我是 Spark 和 Spark SQL 的新手。我有一个包含 2 列的数据集，“col1”和“col2”，“col2”最初是一个长整型序列。我想将“col2”分解为多行，以便每一行只有一个...

apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

我有一个 pyspark 情况，我有 4 个表，需要图像中提到的预期结果

第2步：四个表的样本数据 data_01 = [(787, 10, 1, 2024, '0202410IN D600000787', '7987979')] 数据_02 = [ (787, 10, 2, 2024, '00007870202410111439000000000', '7987979jk'), (787, 10, 2, ...

pyspark apache-spark-sql databricks-sql

回答 1 投票 0

如何用Spark高效读取多个parquet小文件？有CombineParquetInputFormat吗？

Spark 生成了多个小 parquet 文件。如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件。

apache-spark spark-streaming apache-spark-sql parquet

回答 2 投票 0

如何在pyspark中用字典替换单行中的多个值？

我有一个专栏叫水果。每行的格式为 ["apple","banana","mango"]。我有一本包含 {oldvalue:newvalue} 的字典。我想更换appl...

azure pyspark apache-spark-sql databricks azure-synapse

回答 1 投票 0

如何使用 PySpark 处理单列中的多种日期格式？

我正在 PySpark 中使用一个 DataFrame，其中包含一个名为 datdoc 的列，该列具有多种日期格式，如下所示：数据文档 24 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 24 年 9 月 7 日 2 月 7 日...

python apache-spark date pyspark apache-spark-sql

回答 1 投票 0

无法在 conda windows 中启动 Spark 会话

我无法在 Windows conda 虚拟 python 环境中启动 Spark 会话。但是，几天前我能够成功执行此语句，安装后没有任何问题......

python apache-spark-sql

回答 1 投票 0

spark SQL中IF和IFF有什么区别？

这两个函数的文档实际上是相同的。请参阅 IF 和 IFF。运行时（在 DBR 13.3 中，但这并不重要）：选择如果（1 = 1，'a'，'b'），如果（1 = 0，'a'，'b'），我...

apache-spark apache-spark-sql

回答 1 投票 0

在 pyspark 中左连接两个排序的数据帧

我有两个数据框，它们按某一列排序，这也是连接键。是否可以合并这两个数据帧，并在 O(n+m) 时间内返回排序后的数据帧？我不在乎它是否没有完成

apache-spark pyspark apache-spark-sql

回答 1 投票 0

PySpark：使用 .count() 时抛出错误“Column”对象不可调用

我正在使用 PySpark DataFrame 并尝试计算每列中空值的数量。我尝试了以下表达式： [col(c).isNull().count() for c in df.columns] 抛出错误： ---...

python dataframe pyspark apache-spark-sql

回答 1 投票 0

单个小文件的Parquet分区策略及读取优化

我有一个 5 到 100Mb 数据的镶木地板文件。当我尝试在日期列上创建分区时，会创建多个文件，这会降低读取性能，因为有很多...

java apache-spark apache-spark-sql parquet

回答 1 投票 0

如何在 PySpark 中高效读取多个跳过行和页脚的 CSV 文件？

我有几个 CSV 文件，它们的数据行数量不一致，没有标题行，我想将这些文件读入单个 PySpark DataFrame。 CSV 文件的结构如下： ...

python python-3.x apache-spark pyspark apache-spark-sql

回答 1 投票 0

创建数据框时如何强制字符串格式（JSON）

我正在与 PySpark 战斗。我有一本关于 Python 的字典，名为 data，例如 { "key1": "xx:xx:xx", “key2”：“xxxxxxxxxxx”， “key9”：“

pyspark apache-spark-sql microsoft-fabric

回答 1 投票 0

在 PySpark 中使用 rangeBetween 考虑几个月而不是几天

我正在研究如何将这段 SQL 代码转换为 PySpark 语法。选择平均值（某个值）超过（按 yyyy_mm_dd 排序前一行和当前行 3 个月的间隔范围 ) 一个...

sql apache-spark pyspark apache-spark-sql window-functions

回答 2 投票 0

Spark 从多个 SQL 数据库并行读取

我有一个场景，需要将多个 SQL 数据库（每个数据库都有自己的端点和连接）中的大型数据集加载到 Spark 集群中。考虑到这些数据集的大小（数十亿行......

apache-spark pyspark apache-spark-sql

回答 1 投票 0

spark 中的哈希函数

我正在尝试向数据框中添加一列，其中将包含另一列的哈希值。我找到了这篇文档： https://spark.apache.org/docs/2.3.0/api/sql/index.html#hash 并尝试过...

scala apache-spark hash apache-spark-sql

回答 3 投票 0

季度最后一天

有没有办法在 PySpark 中本地选择每个季度的最后一天？例如，在包含两列的 df 中 - yyyy_mm_dd 和 sum。我如何返回每个季度最后一天的总和？...

python date apache-spark pyspark apache-spark-sql

回答 2 投票 0

Java Spark 地图为空

java Spark数据集中有一列类型为map，如何使用java Spark检查此映射的列是否为空或具有某些值。我想过滤数据集...

java apache-spark apache-spark-sql

回答 1 投票 0

表分区列的最大值 vs 同表的显示分区结果的最大值

假设我有一个包含客户订单的表，（仅）按 date_transaction 分区。我想找到 date_transaction 的最大值。以前，我只是运行spark.sql("SELE...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

apache-spark-sql 相关问题

最新问题