apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

将列的数据类型从字符串转换为日期时 Spark 作业失败

写入目标时出现以下错误: 作业因阶段失败而中止:阶段 15526.0 中的任务 18 失败 4 次,最近一次失败:阶段 15526.0 中丢失任务 18.3 (TID 3281950) (1...

回答 1 投票 0

根据工作线程、核心和 DataFrame 大小确定 Spark 分区的最佳数量

Spark-land 中有几个相似但不同的概念,围绕如何将工作分配给不同的节点并同时执行。具体来说,有: Spark 驱动程序节点 (

回答 2 投票 0

Pyspark - 重复值直到列发生变化

我有一个具有这种结构的数据框 订单号 电话号码 物品 类型 12345 1 1001 家长 12345 2 1002 孩子 12345 3 1003 孩子 12345 4 1004 孩子 12345 5 1005 家长 12345 6 1006 孩子 我

回答 1 投票 0

为什么spark在sql查询末尾附加'WHERE 1=0'

我正在尝试使用 Apache Spark 执行简单的 mysql 查询并创建一个数据框。但由于某些原因,spark 在我想要执行的查询末尾附加“WHERE 1=0”并抛出一个

回答 2 投票 0

Scala Spark 查询优化

我有两个数据框,每个数据框有 300 列和 1000 行。它们具有相同的列名称。这些值是混合数据类型,如结构/列表/时间戳/字符串/等。我正在尝试比较该专栏

回答 1 投票 0

用逗号将列分隔成行

我正在研究databricks 11.2 Spark sql,我有包含两列的表 第 1 列 第2栏 1,2,3 甲、乙、丙 1,2,3,4,5 a、b、c、d、e 笔记 col1 和 col2 之间的项目数相同 对于每一行,没有项目可能会...

回答 1 投票 0

从 Pyspark Dataframe 中选择唯一对

假设我有一个 PySpark 数据框: XY 1 个 1b 1℃ 2b 2个 2c 3个 3c 3b 4点 我必须选择任何可能的 X 和 Y 对,但相同的 X 和 Y 不应在结果中重复。 可能的...

回答 1 投票 0

访问 Spark 中的嵌套数据

我有一个嵌套案例类的集合。我的工作是使用这些案例类生成数据集,并将输出写入镶木地板。 我很恼火地发现我必须手动...

回答 1 投票 0

Dataframe 不会保存为任何内容 - 表、全局临时视图或临时视图

数据框不会保存为表格,无论是永久的还是临时的 - 不会给出错误消息。 我努力了 : df.createOrReplaceTempView("tmp_table") # 或者 df.createGlobalTempView("tmp_ta...

回答 1 投票 0

从 Spark 数据帧中过滤并记录空值

我有这个数据框: +------+--------------------+------------+ |品牌 |original_timestamp |重量 | +------+--------------------+------------+ |BR1 |1632899456 |4.0 | |BR2 |

回答 1 投票 0

如何解决 scala 中的无效外部类型错误

我刚刚开始在 scala 中工作,我编写了下面的代码来断言,但它无法架构不匹配。我无法弄清楚其背后的原因。 下面是我写的代码 - 对象 xyzz {...

回答 1 投票 0

如何将列表分解为列并使用另一个列表作为列名称?

我有一个表格,其中包含如下数据, 名字 价值观 [一、二、三] [1,2,3] [一、二、三] [4,5,6] 如何使用 Spark sql (SELECT) 将其转换为下表,无需硬编码索引且无需硬...

回答 1 投票 0

Pyspark:将列中的 json 分解为多列

数据看起来像这样 - +------------+------------+------------------------ ----+ |编号|点|数据| +------------------------------------------------ ----+ ...

回答 7 投票 0

Pyspark 将 MapType 列转换为重复键

我有一个要转换的数据框 原始数据框: 从 pyspark.sql 导入行 Spark.createDataFrame([ Row(规则={1: [7408,4586], 2: [9670,2474] }), ])。展示() 规则 地图...

回答 1 投票 0

临时视图并合并到语句中

是否支持将临时视图作为源传递到合并语句中? 我正在创建临时视图 df.createOrReplaceTempView("dim_user") 然后我想用它作为

回答 1 投票 0

如何处理pyspark中的转义字符。当数据框中的列值为 ' ' 时,尝试用 NULL 替换转义字符

如何处理pyspark中的转义字符。尝试用 NULL 替换转义字符 ' ' 随机分布在所有列中,我已在所有列中用 NULL 替换为 ' '...

回答 1 投票 0

在spark sql中分割包含嵌套括号的字符串

我有一个场景,我有一个包含嵌套括号的字符串列,我需要以递归方式从该字符串中提取字符串。 例如 A1 和(A4 或(A2 和 A3))和(B1 或 B2)...

回答 1 投票 0

如何将spark中的json字符串插入到postgres中jsonb类型的列中

我必须将 Spark (Scala) 中的 json 字符串插入 Postgres 中 JSONB 类型的列中。我必须单独计算这个字符串,然后将该值作为新列添加到数据框中。所以用了df。

回答 1 投票 0

Spark:如何打印时间戳列和时区?

有一个场景,我们从Teradata(SRC)获取输入数据并将其加载到spark hive仓库中。我们有一个时间戳列和时区,如下所示,并且希望看到相同的...

回答 1 投票 0

Spark AQE Post-Shuffle 分区合并无法按预期工作,甚至会导致某些分区中的数据倾斜。为什么?

我在 Spark DF 上使用全局排序,当我启用 AQE 和后洗牌合并时,排序操作后的分区分布比以前更差。 “spark.sql.adaptive.enabled...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.