apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

用逗号将列分隔成行

我正在研究databricks 11.2 Spark sql,我有包含两列的表 第 1 列 第2栏 1,2,3 甲、乙、丙 1,2,3,4,5 a、b、c、d、e 笔记 col1 和 col2 之间的项目数相同 对于每一行,没有项目可能会...

回答 1 投票 0

从 Pyspark Dataframe 中选择唯一对

假设我有一个 PySpark 数据框: XY 1 个 1b 1℃ 2b 2个 2c 3个 3c 3b 4点 我必须选择任何可能的 X 和 Y 对,但相同的 X 和 Y 不应在结果中重复。 可能的...

回答 1 投票 0

访问 Spark 中的嵌套数据

我有一个嵌套案例类的集合。我的工作是使用这些案例类生成数据集,并将输出写入镶木地板。 我很恼火地发现我必须手动...

回答 1 投票 0

Dataframe 不会保存为任何内容 - 表、全局临时视图或临时视图

数据框不会保存为表格,无论是永久的还是临时的 - 不会给出错误消息。 我努力了 : df.createOrReplaceTempView("tmp_table") # 或者 df.createGlobalTempView("tmp_ta...

回答 1 投票 0

从 Spark 数据帧中过滤并记录空值

我有这个数据框: +------+--------------------+------------+ |品牌 |original_timestamp |重量 | +------+--------------------+------------+ |BR1 |1632899456 |4.0 | |BR2 |

回答 1 投票 0

如何解决 scala 中的无效外部类型错误

我刚刚开始在 scala 中工作,我编写了下面的代码来断言,但它无法架构不匹配。我无法弄清楚其背后的原因。 下面是我写的代码 - 对象 xyzz {...

回答 1 投票 0

如何将列表分解为列并使用另一个列表作为列名称?

我有一个表格,其中包含如下数据, 名字 价值观 [一、二、三] [1,2,3] [一、二、三] [4,5,6] 如何使用 Spark sql (SELECT) 将其转换为下表,无需硬编码索引且无需硬...

回答 1 投票 0

Pyspark:将列中的 json 分解为多列

数据看起来像这样 - +------------+------------+------------------------ ----+ |编号|点|数据| +------------------------------------------------ ----+ ...

回答 7 投票 0

Pyspark 将 MapType 列转换为重复键

我有一个要转换的数据框 原始数据框: 从 pyspark.sql 导入行 Spark.createDataFrame([ Row(规则={1: [7408,4586], 2: [9670,2474] }), ])。展示() 规则 地图...

回答 1 投票 0

临时视图并合并到语句中

是否支持将临时视图作为源传递到合并语句中? 我正在创建临时视图 df.createOrReplaceTempView("dim_user") 然后我想用它作为

回答 1 投票 0

如何处理pyspark中的转义字符。当数据框中的列值为 ' ' 时,尝试用 NULL 替换转义字符

如何处理pyspark中的转义字符。尝试用 NULL 替换转义字符 ' ' 随机分布在所有列中,我已在所有列中用 NULL 替换为 ' '...

回答 1 投票 0

在spark sql中分割包含嵌套括号的字符串

我有一个场景,我有一个包含嵌套括号的字符串列,我需要以递归方式从该字符串中提取字符串。 例如 A1 和(A4 或(A2 和 A3))和(B1 或 B2)...

回答 1 投票 0

如何将spark中的json字符串插入到postgres中jsonb类型的列中

我必须将 Spark (Scala) 中的 json 字符串插入 Postgres 中 JSONB 类型的列中。我必须单独计算这个字符串,然后将该值作为新列添加到数据框中。所以用了df。

回答 1 投票 0

Spark:如何打印时间戳列和时区?

有一个场景,我们从Teradata(SRC)获取输入数据并将其加载到spark hive仓库中。我们有一个时间戳列和时区,如下所示,并且希望看到相同的...

回答 1 投票 0

Spark AQE Post-Shuffle 分区合并无法按预期工作,甚至会导致某些分区中的数据倾斜。为什么?

我在 Spark DF 上使用全局排序,当我启用 AQE 和后洗牌合并时,排序操作后的分区分布比以前更差。 “spark.sql.adaptive.enabled...

回答 2 投票 0

澄清 Spark 物理计划交换哈希分区中“[id=#]”的含义

在查看 Spark 物理计划以查找代码中的任何瓶颈时,我偶然发现了一个出现在分区阶段的 ID。 +- *(2) 排序 [Column#46 ASC NULLS FIRST], true, 0 +-

回答 1 投票 0

如何组织 Apache Spark 项目

我是 Spark 新手,我想了解如何最好地设置项目。我将使用 Maven 进行构建(包括测试)。 我编写了第一个 Spark 应用程序,但要在开发期间启动它,...

回答 3 投票 0

如何克服spark java.lang.OutOfMemoryError:Java堆空间和java.lang.OutOfMemoryError:GC开销限制超出问题?

我正在尝试联接操作,这里表1有3GB的数据,表2有120GB的数据。为了避免随机播放表 1。 执行时我收到这些错误: 原因是:...

回答 1 投票 0

如何在sparksql中按名称应用union,而不是union或union all

当我在旧的 Sparksql 版本中运行查询时,例如 从中选择 * (选择 10 作为学生类型,“亨利”作为学生姓名 联盟 选择 'tom' 作为学生姓名,90 作为学生类型, ); 然后我...

回答 1 投票 0

如何在 Databricks SQL 中创建和使用地图

我想创建一个地图并在同一个 SQL 查询中使用它。我正在尝试类似的东西 从table1中选择sample_map[t1.col1],t1.col2作为t1,(选择map(1,2,3,4))作为sample_map group by t1.col2;

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.