apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

spark.sql() 给出错误：org.apache.spark.sql.catalyst.parser.ParseException：'('（第 2 行，第 52 行）处或附近的语法错误

我有类 LowerCaseColumn.scala，其中一个函数定义如下：覆盖 def registerSQL(): Unit = Spark.sql( ”“” |创造或取代临时的乐趣...

scala apache-spark apache-spark-sql user-defined-functions

回答 1 投票 0

SparkUI 中的重试是什么意思？

我在两个不同的实例中执行了spark： Spark.sql.adaptive.coalescePartitions.enabled=false Spark.sql.adaptive.coalescePartitions.enabled=true 在第一个实例中，阶段图有

apache-spark pyspark apache-spark-sql amazon-emr

回答 2 投票 0

Pyspark - 从同一数据帧的其他字段中动态指定的字段中检索值

我正在使用 PySpark，遇到一个具有挑战性的场景，我需要动态检索同一 DataFrame 的另一个字段中指定的字段的值。然后我需要比较这个

python dataframe pyspark apache-spark-sql databricks

回答 1 投票 0

执行器中的核心数和 OOM 错误

我读过一些关于 Spark 应用程序执行器中 OOM 错误的文章，其中许多提到高并发是可能的原因之一。我知道并发是确定的...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

集群中各节点之间的执行器分布

Spark 应用程序的执行器如何分布在集群的节点上？假设 Spark 以集群模式运行，YARN 作为管理器。集群据说有6个节点，16个核心...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

Spark UI 中的重试是什么意思？

我在两个不同的实例中执行了spark（一个是spark.sql.adaptive.coalescePartitions.enabled = false，另一个是spark.sql.adaptive.coalescePartitions.enabled = true）。首先...

apache-spark pyspark apache-spark-sql amazon-emr

回答 1 投票 0

点燃罐子产生火花的问题

我正在尝试将 ignite 2.4 与 Spark 2.1 一起使用。我从 Spark-shell 的 ignite 二进制文件中添加了以下库的路径 --conf Spark.diver.extraClassPath=/home/sshuser/apache-ignite-fabric-2...

apache-spark apache-spark-sql ignite

回答 1 投票 0

Databricks：使用增量表路径创建表，出现 AnalysisException：指定的架构与 dbfs:/mnt/datalake/

我有一个增量表路径。基于此，我尝试使用创建表如果不存在则创建表 dbo.DimCustomer （默认生成的 CustomerSK BIGINT 作为身份，名字 varchar(1...

apache-spark apache-spark-sql databricks azure-databricks

回答 1 投票 0

计划触发器数据块管道时 Spark SQL 解析错误

我正在我的 pyspark SQL 中执行合并或查询语句，并且笔记本在手动运行时完美执行，但如果我在 databricks 工作流程中安排管道，则会出现以下错误。请他...

apache-spark-sql azure-databricks

回答 1 投票 0

Spark emr jobs：AQE定义的任务数量（adaptive.enabled）？

我看到 Spark 作业中的任务数量在初次读取后仅为 1000 个，而可用核心数量为 9000 个（1800 个执行器*每个 5 个核心）。我启用了 aqe 和合并洗牌分区。在...

apache-spark pyspark apache-spark-sql amazon-emr

回答 1 投票 0

PySpark 多列爆炸

我有一个数据框，其中一行如下 - 第 1 列列2 第 3 列 [一、二、三] [一、二、三] [1,2,3] 现在我需要将其转移到 - 第 1 列列2 第 3 列 A 我 1 乙二 2 C 三、 3 我尝试过使用爆炸。但是...

python pyspark apache-spark-sql

回答 1 投票 0

通过AWS Glue中注册的本地Spark SQL读取DeltaLake表

我在 S3 上存储的 AWS Glue Catalog 上注册了订单 Delta Lake 表。 val Spark = SparkSession.builder() .appName("GlueDeltaLakeExample") .master("本地") .

apache-spark apache-spark-sql aws-glue delta-lake

回答 1 投票 0

如何循环Spark Row数据？

https://spark.apache.org/docs/3.1.3/api/python/reference/api/pyspark.sql.Row.html 我正在尝试迭代行的数据项。根据 row 中的这个键，将通过行键进行搜索。然而我...

apache-spark apache-spark-sql

回答 1 投票 0

将数据帧列作为参数传递给pyspark中的函数

我是pyspark的新手，正在尝试探索一些新的实现方法。我试图将数据框中的派生列作为参数传递给查询并返回值的函数绝对是...

pyspark apache-spark-sql

回答 1 投票 0

如何重命名 PySpark 中的 StructType 字段数组？

我需要读取法语的 JSON 并希望将其转换为英语列名称。例如架构是这样的 |-- 联合：数组（可为 null = true） | |-- 元素：结构（containsNull = tr...

python apache-spark pyspark apache-spark-sql

回答 1 投票 0

将嵌套 json 的几个字段转换为 Pyspark 中的字典

我有一个巨大的嵌套 json，如下所示 “评估参数”：{}， “元”：{ “active_batch_definition”：{ “批次标识符”：{ ”

apache-spark pyspark apache-spark-sql

回答 2 投票 0

CTE 可以与 databricks/spark sql 中的 INSERT 一起使用吗？

我还没有数据块环境来运行查询和测试内容。有人可以帮忙检查以下是否是有效的查询：插入 pqr.public.abc 与 city_mapping 为（选择...

apache-spark-sql databricks databricks-sql

回答 1 投票 0

如何避免 read_sql 输出中的行号

当我使用 pandas read_sql 从 mysql 读取时，它返回行号作为第一列的行，如下所示。这可以避免行号吗？

python pandas dataframe apache-spark apache-spark-sql

回答 3 投票 0

为什么 Pyspark 中带或不带连接条件的交叉连接计数不同？

dfj3 = Spark.createDataFrame( ['a','b','b'],StringType() ） dfj4 = Spark.createDataFrame( ['c','d','e'],StringType() ） dfj3.join(dfj4).count() // #crossjoin, count = 9 dfj3.join(dfj4,d...

sql apache-spark pyspark apache-spark-sql cross-join

回答 1 投票 0

Spark：在标志值之间填充规格值

我试图弄清楚如何在两个标志值之间放置一个特定值，例如：有 ID 日期 FLG 123 2024年1月1日 1 第432章 2024年1月2日 5234 2024年1月3日 12342 2024年1月6日 1 第1256章 07.01.2...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.