apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

用逗号将列分隔成行

我正在研究databricks 11.2 Spark sql，我有包含两列的表第 1 列第2栏 1,2,3 甲、乙、丙 1,2,3,4,5 a、b、c、d、e 笔记 col1 和 col2 之间的项目数相同对于每一行，没有项目可能会...

apache-spark apache-spark-sql azure-databricks databricks-sql

回答 1 投票 0

从 Pyspark Dataframe 中选择唯一对

假设我有一个 PySpark 数据框： XY 1 个 1b 1℃ 2b 2个 2c 3个 3c 3b 4点我必须选择任何可能的 X 和 Y 对，但相同的 X 和 Y 不应在结果中重复。可能的...

python apache-spark pyspark apache-spark-sql data-analysis

回答 1 投票 0

访问 Spark 中的嵌套数据

我有一个嵌套案例类的集合。我的工作是使用这些案例类生成数据集，并将输出写入镶木地板。我很恼火地发现我必须手动...

apache-spark dataframe apache-spark-sql

回答 1 投票 0

Dataframe 不会保存为任何内容 - 表、全局临时视图或临时视图

数据框不会保存为表格，无论是永久的还是临时的 - 不会给出错误消息。我努力了： df.createOrReplaceTempView("tmp_table") ＃或者 df.createGlobalTempView("tmp_ta...

apache-spark apache-spark-sql spark-streaming

回答 1 投票 0

从 Spark 数据帧中过滤并记录空值

我有这个数据框： +------+--------------------+------------+ |品牌 |original_timestamp |重量 | +------+--------------------+------------+ |BR1 |1632899456 |4.0 | |BR2 |

dataframe scala apache-spark apache-spark-sql nullpointerexception

回答 1 投票 0

如何解决 scala 中的无效外部类型错误

我刚刚开始在 scala 中工作，我编写了下面的代码来断言，但它无法架构不匹配。我无法弄清楚其背后的原因。下面是我写的代码 - 对象 xyzz {...

scala apache-spark apache-spark-sql

回答 1 投票 0

如何将列表分解为列并使用另一个列表作为列名称？

我有一个表格，其中包含如下数据，名字价值观 [一、二、三] [1,2,3] [一、二、三] [4,5,6] 如何使用 Spark sql (SELECT) 将其转换为下表，无需硬编码索引且无需硬...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

Pyspark：将列中的 json 分解为多列

数据看起来像这样 - +------------+------------+------------------------ ----+ |编号|点|数据| +------------------------------------------------ ----+ ...

python apache-spark pyspark apache-spark-sql

回答 7 投票 0

Pyspark 将 MapType 列转换为重复键

我有一个要转换的数据框原始数据框：从 pyspark.sql 导入行 Spark.createDataFrame([ Row(规则={1: [7408,4586], 2: [9670,2474] }), ]）。展示（）规则地图...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

临时视图并合并到语句中

是否支持将临时视图作为源传递到合并语句中？我正在创建临时视图 df.createOrReplaceTempView("dim_user") 然后我想用它作为

pyspark apache-spark-sql azure-databricks

回答 1 投票 0

如何处理pyspark中的转义字符。当数据框中的列值为 ' ' 时，尝试用 NULL 替换转义字符

如何处理pyspark中的转义字符。尝试用 NULL 替换转义字符 ' ' 随机分布在所有列中，我已在所有列中用 NULL 替换为 ' '...

pyspark apache-spark-sql stringescapeutils

回答 1 投票 0

在spark sql中分割包含嵌套括号的字符串

我有一个场景，我有一个包含嵌套括号的字符串列，我需要以递归方式从该字符串中提取字符串。例如 A1 和（A4 或（A2 和 A3））和（B1 或 B2）...

python pyspark apache-spark-sql

回答 1 投票 0

如何将spark中的json字符串插入到postgres中jsonb类型的列中

我必须将 Spark (Scala) 中的 json 字符串插入 Postgres 中 JSONB 类型的列中。我必须单独计算这个字符串，然后将该值作为新列添加到数据框中。所以用了df。

postgresql scala apache-spark pyspark apache-spark-sql

回答 1 投票 0

Spark：如何打印时间戳列和时区？

有一个场景，我们从Teradata（SRC）获取输入数据并将其加载到spark hive仓库中。我们有一个时间戳列和时区，如下所示，并且希望看到相同的...

sql pyspark apache-spark-sql timestamp

回答 1 投票 0

Spark AQE Post-Shuffle 分区合并无法按预期工作，甚至会导致某些分区中的数据倾斜。为什么？

我在 Spark DF 上使用全局排序，当我启用 AQE 和后洗牌合并时，排序操作后的分区分布比以前更差。 “spark.sql.adaptive.enabled...

apache-spark apache-spark-sql spark-kafka-integration spark3

回答 2 投票 0

澄清 Spark 物理计划交换哈希分区中“[id=#]”的含义

在查看 Spark 物理计划以查找代码中的任何瓶颈时，我偶然发现了一个出现在分区阶段的 ID。 +- *(2) 排序 [Column#46 ASC NULLS FIRST], true, 0 +-

python apache-spark pyspark apache-spark-sql bigdata

回答 1 投票 0

如何组织 Apache Spark 项目

我是 Spark 新手，我想了解如何最好地设置项目。我将使用 Maven 进行构建（包括测试）。我编写了第一个 Spark 应用程序，但要在开发期间启动它，...

java apache-spark apache-spark-sql

回答 3 投票 0

如何克服spark java.lang.OutOfMemoryError：Java堆空间和java.lang.OutOfMemoryError：GC开销限制超出问题？

我正在尝试联接操作，这里表1有3GB的数据，表2有120GB的数据。为了避免随机播放表 1。执行时我收到这些错误：原因是：...

apache-spark pyspark apache-spark-sql hive spark-streaming

回答 1 投票 0

如何在sparksql中按名称应用union，而不是union或union all

当我在旧的 Sparksql 版本中运行查询时，例如从中选择 * （选择 10 作为学生类型，“亨利”作为学生姓名联盟选择 'tom' 作为学生姓名，90 作为学生类型，）；然后我...

apache-spark apache-spark-sql

回答 1 投票 0

如何在 Databricks SQL 中创建和使用地图

我想创建一个地图并在同一个 SQL 查询中使用它。我正在尝试类似的东西从table1中选择sample_map[t1.col1]，t1.col2作为t1，（选择map（1,2,3,4））作为sample_map group by t1.col2;

apache-spark-sql databricks databricks-sql

回答 1 投票 0

apache-spark-sql 相关问题

最新问题