apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

spark.sql() 给出错误:org.apache.spark.sql.catalyst.parser.ParseException:'('(第 2 行,第 52 行)处或附近的语法错误

我有类 LowerCaseColumn.scala,其中一个函数定义如下: 覆盖 def registerSQL(): Unit = Spark.sql( ”“” |创造或取代临时的乐趣...

回答 1 投票 0

SparkUI 中的重试是什么意思?

我在两个不同的实例中执行了spark: Spark.sql.adaptive.coalescePartitions.enabled=false Spark.sql.adaptive.coalescePartitions.enabled=true 在第一个实例中,阶段图有

回答 2 投票 0

Pyspark - 从同一数据帧的其他字段中动态指定的字段中检索值

我正在使用 PySpark,遇到一个具有挑战性的场景,我需要动态检索同一 DataFrame 的另一个字段中指定的字段的值。然后我需要比较这个

回答 1 投票 0

执行器中的核心数和 OOM 错误

我读过一些关于 Spark 应用程序执行器中 OOM 错误的文章,其中许多提到高并发是可能的原因之一。我知道并发是确定的...

回答 1 投票 0

集群中各节点之间的执行器分布

Spark 应用程序的执行器如何分布在集群的节点上?假设 Spark 以集群模式运行,YARN 作为管理器。集群据说有6个节点,16个核心...

回答 1 投票 0

Spark UI 中的重试是什么意思?

我在两个不同的实例中执行了spark(一个是spark.sql.adaptive.coalescePartitions.enabled = false,另一个是spark.sql.adaptive.coalescePartitions.enabled = true)。首先...

回答 1 投票 0

点燃罐子产生火花的问题

我正在尝试将 ignite 2.4 与 Spark 2.1 一起使用。 我从 Spark-shell 的 ignite 二进制文件中添加了以下库的路径 --conf Spark.diver.extraClassPath=/home/sshuser/apache-ignite-fabric-2...

回答 1 投票 0

Databricks:使用增量表路径创建表,出现 AnalysisException:指定的架构与 dbfs:/mnt/datalake/

我有一个增量表路径。基于此,我尝试使用创建表 如果不存在则创建表 dbo.DimCustomer (默认生成的 CustomerSK BIGINT 作为身份, 名字 varchar(1...

回答 1 投票 0

计划触发器数据块管道时 Spark SQL 解析错误

我正在我的 pyspark SQL 中执行合并或查询语句,并且笔记本在手动运行时完美执行,但如果我在 databricks 工作流程中安排管道,则会出现以下错误。请他...

回答 1 投票 0

Spark emr jobs:AQE定义的任务数量(adaptive.enabled)?

我看到 Spark 作业中的任务数量在初次读取后仅为 1000 个,而可用核心数量为 9000 个(1800 个执行器*每个 5 个核心)。我启用了 aqe 和合并洗牌分区。在...

回答 1 投票 0

PySpark 多列爆炸

我有一个数据框,其中一行如下 - 第 1 列 列2 第 3 列 [一、二、三] [一、二、三] [1,2,3] 现在我需要将其转移到 - 第 1 列 列2 第 3 列 A 我 1 乙 二 2 C 三、 3 我尝试过使用爆炸。但是...

回答 1 投票 0

通过AWS Glue中注册的本地Spark SQL读取DeltaLake表

我在 S3 上存储的 AWS Glue Catalog 上注册了订单 Delta Lake 表。 val Spark = SparkSession.builder() .appName("GlueDeltaLakeExample") .master("本地") .

回答 1 投票 0

如何循环Spark Row数据?

https://spark.apache.org/docs/3.1.3/api/python/reference/api/pyspark.sql.Row.html 我正在尝试迭代行的数据项。根据 row 中的这个键,将通过行键进行搜索。 然而我...

回答 1 投票 0

将数据帧列作为参数传递给pyspark中的函数

我是pyspark的新手,正在尝试探索一些新的实现方法。我试图将数据框中的派生列作为参数传递给查询并返回值的函数 绝对是...

回答 1 投票 0

如何重命名 PySpark 中的 StructType 字段数组?

我需要读取法语的 JSON 并希望将其转换为英语列名称。 例如 架构是这样的 |-- 联合:数组(可为 null = true) | |-- 元素:结构(containsNull = tr...

回答 1 投票 0

将嵌套 json 的几个字段转换为 Pyspark 中的字典

我有一个巨大的嵌套 json,如下所示 “评估参数”:{}, “元”:{ “active_batch_definition”:{ “批次标识符”:{ ”

回答 2 投票 0

CTE 可以与 databricks/spark sql 中的 INSERT 一起使用吗?

我还没有数据块环境来运行查询和测试内容。 有人可以帮忙检查以下是否是有效的查询: 插入 pqr.public.abc 与 city_mapping 为 ( 选择...

回答 1 投票 0

如何避免 read_sql 输出中的行号

当我使用 pandas read_sql 从 mysql 读取时,它返回行号作为第一列的行,如下所示。这可以避免行号吗?

回答 3 投票 0

为什么 Pyspark 中带或不带连接条件的交叉连接计数不同?

dfj3 = Spark.createDataFrame( ['a','b','b'],StringType() ) dfj4 = Spark.createDataFrame( ['c','d','e'],StringType() ) dfj3.join(dfj4).count() // #crossjoin, count = 9 dfj3.join(dfj4,d...

回答 1 投票 0

Spark:在标志值之间填充规格值

我试图弄清楚如何在两个标志值之间放置一个特定值,例如: 有 ID 日期 FLG 123 2024年1月1日 1 第432章 2024年1月2日 5234 2024年1月3日 12342 2024年1月6日 1 第1256章 07.01.2...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.