apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

SparkSQL 将每一行与前面最近的项目相加

我有一个如下所示的数据框。 +--------+--------+-----+--------------------+ |产品|地点|编号| TS| +--------+--------+-----+--------------------+ | 1|...

回答 1 投票 0

Spark 从特定位置读取表

我使用以下代码将数据框保存为表格: yearly_calltype.write.option("path", "/home/user/tables/firstProject").saveAsTable('yearly_calltype_count') 但是嗬...

回答 1 投票 0


使用 Apache Spark 和 Scala 的 SQL 事务

有了IP数据框和更新状态,我们首先需要从SQL表中删除数据框的IP。之后,我们应该使用 Spark SQL 插入具有更新状态的数据框。

回答 1 投票 0

胶水作业从 Redshift 读取大量数据时出现性能问题

我正在尝试运行查询以通过 AWS Glue 作业从 redshift 表中读取数据。当它从表中读取数据时,它创建只有 1 个分区的数据帧,并且需要花费大量时间来读取......

回答 1 投票 0

如何将 Spark 表从一种模式传输到另一种模式?

是否可以将 Spark 中的表从一个命名空间转移到另一个命名空间,就像我们通过命令 ALTER SCHEMA new_schema_name TRANSFER 更改 SQL Server 中表的架构一样

回答 1 投票 0

Py4JException:构造函数 org.apache.spark.sql.SparkSession([class org.apache.spark.SparkContext, class java.util.HashMap]) 不存在

我正在尝试通过 Visual Studio Code 在 EC2 Linux 计算机上的 Jupyter Notebook 中运行 Spark 会话。我的代码如下所示: 从 pyspark.sql 导入 SparkSession 火花 = SparkSession.builder.

回答 3 投票 0

如何将 PySpark res =notesCollege.select(*[f.mean(c).alias(c) for c innotesCollege.columns]) 转换为 Java Spark?

我想应用中建议的 PySpark 语句 pyspark 在我的 Java 程序中计算一行问题中所有列的平均值,但我不知道如何实现。 在接下来的代码中,notesCollege 是 D...

回答 1 投票 0

Spark读取Json数据时如何将datetime字符串改为timestamp[us]

我有一些以 JSON 格式存储的数据,如下所示: { “id”:1, "时间":"2023-01-01 12:34:56" } 我还有一个具有相同列的 Apache Hudi 表。 Hudi 的架构

回答 1 投票 0

使用spark.table命令进行旋转时按降序排序/排序

我正在使用spark.table命令和其中的pivot命令,使用以下命令根据季度旋转我的数据 - Spark.table("GSCH.TABLE"). \ 过滤器(“来源='全部'年月=='八月...

回答 1 投票 0

为什么 PySpark 的 fillna() 方法不支持列表类型作为替换值?

我最近在尝试使用 PySpark 的 fillna()(官方文档)函数时遇到了一个限制,我无法使用列表作为 DataFrame 中空条目的替换值。有人可以吗...

回答 1 投票 0

如何使用Spark java从mariadb读取数据

我需要使用 Spark 和 Java 从 MariaDB 读取表。 我写了一个Java代码,用于从数据库读取表数据。连接建立成功,但读取时出现错误...

回答 2 投票 0

PySpark:如何读回写入 S3 的分桶表?

我正在尝试使用 PySpark 中的存储桶,使用以下一般示例: https://gist.github.com/luminousmen/8dffa01a02bb58946b1299a621e44897 https://towardsdatascience.com/best-practices-for-

回答 1 投票 0

如何从数据帧列中存储的数组中获取元素并按空格分割

我在以下情况下需要帮助- 在一个数据帧 df 中输入列名称,其采用如下所示的数组格式,并希望从空间中分割并获取分割数据的第一个元素- 输入- [努...

回答 1 投票 0

未找到带有 Iceberg Catalog 的 Pyspark

我正在尝试创建一个基本的 Iceberg 表并在本地 Mac 上使用 PySpark 对其进行查询。但是,我遇到了一个问题,我的代码无法找到我之前创建的目录...

回答 1 投票 0

我希望从存储在数据帧列中的数组中获取第二个元素

我有数据框 df1 ,列名称是具有如下行的数据,并且想要获取数组的第二个元素。 [1,5,2,5,8,3,4] [3,4] [5] [] [8, 5,0,2,5,8,1,4] 我想要输出像 5,5,3 4 空...

回答 1 投票 0

Spark:需要确认捕获第一个和最后一个日期的方法:在数据集上

我有一个数据框: A、B、C、D、201701、2020001 A、B、C、D、201801、2020002 A、B、C、D、201901、2020003 预期输出: col_A、col_B、col_C、col_D、最小周、最大周、最小月、最大月 一个,...

回答 1 投票 0

数组(结构)到数组(映射)- py Spark

我有一个具有以下架构的 df, g_hut:字符串 日期: 日期 arr_data:数组 元素:结构 编号:字符串 Q_Id:字符串 Q_类型:字符串 我想转换 arr_data ...

回答 1 投票 0

从本地 Spark 访问 AWS Glue

有什么方法可以针对 AWS Glue 运行本地主 Spark SQL 查询吗? 在我的本地 PC 上启动此代码: SparkSession.builder() .master("本地") .enableHiveSupport() .config("蜂巢.

回答 2 投票 0

pyspark 在 ipython 笔记本中将数据框显示为带有水平滚动的表格

pyspark.sql.DataFrame 使用 DataFrame.show() 显示混乱 - 换行而不是滚动。 但显示为 pandas.DataFrame.head 我尝试了这些选项 导入IPython IPython。

回答 12 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.