apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

Spark SQL 不支持 JSONPATH 通配符的任何解决方法

spark.sql("""select get_json_object('{"k":{"value":"abc"}}', '$.*.value') as j""").show() 这会导致 null,而它应该返回 'a...

回答 2 投票 0

从spark/scala项目代码中资源文件夹中的sql文件读取查询

我在 IntelliJ 中的文件夹结构如下 src-->主-->资源-->sql-->samplequery.sql 我在文件夹 src--> main-->scala-... 中有 scala 对象文件samplequeryexecute

回答 1 投票 0

在 Spark DataFrame python 中将二进制字符串的列转换为 int

所以我有一个数据框,其中有一列,如下所示: +----------+ |some_colum| +----------+ | 10| | 00| | 00| | 10| | 10| | 00| | 10| | 00| | ...

回答 2 投票 0

火花计数未给出正确结果

我是 Spark 的新手,最近了解到它会在调用某个操作时执行所有转换。在搜索过程中,我找到了一个简单的代码来测试它,结果并不符合预期。 他...

回答 1 投票 0

如何将窗口中每 6 行的列的值连接起来,并用空格分隔?

我在尝试实现在 6 行窗口中连接值(带空格)(如果可能)的目标时遇到了问题。 我目前正在使用 Azure Databricks 和 Pyspark 3.4.1,这是

回答 1 投票 0

如何检查数据是否缓存在数据帧中或由于 Pyspark 中的延迟执行而尚未缓存?

我的问题与我在堆栈溢出上找到的其他问题没什么不同。我需要知道数据是否已经检索并存储在数据框中,或者是否尚未发生 我正在做

回答 2 投票 0

Pyspark:通过搜索字典替换列中的值

我是 PySpark 的新手。 我有一个 Spark DataFrame df,其中有一列“device_type”。 我想将“平板电脑”或“电话”中的每个值替换为“电话”,并将“PC”替换为“桌面”。 在...

回答 7 投票 0

如何处理 Apache Spark 中不断变化的 parquet 模式

我遇到了一个问题,我将 Parquet 数据作为 S3 中的每日块(以 s3://bucketName/prefix/YYYY/MM/DD/ 的形式),但无法从 AWS EMR Spark 中读取数据不同的日期因为...

回答 4 投票 0

如何在 pyspark DataFrame 上下文中调用 aes_encrypt (和其他 Spark SQL 函数)

我需要在 DataFrame 上下文中调用新的 Spark 函数 aes_encrypt。 该函数可以在 SQL 上下文中调用,如下所示: SELECT *, aes_encrypt(col1, key, 'GCM') AS col1_encrypted FROM myTab...

回答 2 投票 0

如何计算规范时间范围内的小时数

这里是示例数据: ID 开始时间 时间结束 1 2023-12-29 09:00:00 2023-12-31 06:00:00 2 2023-12-28 09:00:00 2023-12-31 13:00:00 我计划获取这个规范时间中每个小时的时间。 对于

回答 1 投票 0

将大型 Spark Dataframe 保存为 S3 中的单个 json 文件

我正在尝试将 Spark DataFrame(超过 20G)保存到 Amazon S3 中的单个 json 文件中,我保存数据帧的代码如下: dataframe.repartition(1).save("s3n://mybucket/testfile","js...

回答 4 投票 0

PySpark 中的 Union 静态数据帧与 Spark 结构化流数据帧?

有没有其他方法可以在 PySpark 中应用静态数据帧和结构化流数据帧之间的并集?

回答 1 投票 0

Spark Aggregators 的 merge 方法中可以重用其中一个缓冲区吗?

Apache Spark Aggregator 类的 merge 方法将两个缓冲区合并为一个。我可以重用其中一个缓冲区(可能修改它)而不是创建一个要返回的新缓冲区吗...

回答 1 投票 0

to_date 无法解析 Spark 3.0 中的日期

我尝试使用 to_date() 解析日期,但出现以下异常。 SparkUpgradeException: 由于 Spark 3.0 的升级,您可能会得到不同的结果:无法解析 '12/1/2010 8:26'...

回答 7 投票 0

对于一个 Spark 应用程序,是否有理由在一台机器/工作节点上拥有多个执行器?

我们知道spark中的并行性是由于内存分区、核心/插槽/线程以及由此产生的任务而产生的。那么在设计 Spark Submit 时,是否需要每个 Worker 有多个 executor

回答 1 投票 0

Spark 作业在显示所有作业已完成后重新启动,然后失败(TimeoutException:Futures 在 [300 秒] 后超时)

我正在执行一项 Spark 工作。它表明所有作业均已完成: 然而几分钟后,整个作业重新启动,这次它将显示所有作业和任务也已完成,但是…

回答 2 投票 0

Spark SQL databricks 使用 CSV 选项文档创建表

您知道使用 databricks 的 Spark SQL 的正确文档在哪里吗? 例如,我想知道在 Azure databricks 笔记本中使用 csv 创建表的完整选项列表。 谢谢...

回答 1 投票 0

在 Databricks 笔记本中执行我的 pyspark 代码时出错

执行我的 PySpark 代码时,抛出以下错误。非常感谢任何帮助。谢谢 错误: 调用 o508.sql 时发生错误。 : java.lang.NullPointerException 在 org.antlr.v4.r...

回答 1 投票 0

PySpark:DataFrame - 将结构转换为数组

我有一个以下结构的数据框: 根 |-- 索引:长(可空 = true) |-- 文本:字符串(可空 = true) |-- topicDistribution: struct (nullable = true) | |-- 类型:long (nu...

回答 2 投票 0

在pyspark中,是否可以使用where条件进行分组和聚合?

我有当前的数据帧 df_A: +-------------+-------------+--------+------------+ --------+ |编号|类型|id_count|价值1|价值2| +-------------+-------------+--------+- --...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.