apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

从 PySpark 数组中删除 NULL 项

如何从数组(1, 2, null, 3, null)中删除空项? 当我们想要删除空项时,使用 array_remove 函数没有帮助。

回答 3 投票 0

使用 pyspark 找到以下输出

我是 pyspark 新手,我需要帮助解决以下问题。 文件_1 #d1:u1 | d2:u2 | d3:u3 #d4:u4 | d5:u5 #d6:u6 | d7:u7 #o/p #表格1 第 1 列:第 2 列 d1:u1 d2:u2 d3:u3 d4:u4 d5:u5 #o/p...

回答 1 投票 0

如何从databricks中的增量文件中删除数据?

我想从databricks中的增量文件中删除数据。 我正在使用这些命令 前任: PR=spark.read.format('delta').options(header=True).load('/mnt/landing/Base_Tables/EventHistory/') PR.write.format(...

回答 5 投票 0

从 Pyspark Dataframe 中提取 numpy 数组

我有一个数据框 gi_man_df 其中组可以是 n: +------------------+-----------------+--------+--- ------------+ |组 |数字|rand_int| rand_double| +------------------...

回答 3 投票 0

Spark SQL 查询失败并出现 NullPointerException

我正在尝试运行一个非常简单的涉及 join 和 orderby 子句的 SQL 查询,然后在最外面的 select stmt 中使用 UUID() 函数。查询失败 val query = Spark.sql("选择名称,u...

回答 1 投票 0

Spark Parquet 读取错误:java.io.EOFException:已到达流末尾,还剩 XXXXX 字节可供读取

在spark中读取parquet文件时,如果遇到以下问题。 应用程序 > 线程“main”org.apache.spark.SparkException 中出现异常:作业因阶段失败而中止:阶段 2.0 中的任务 0 失败 4

回答 3 投票 0

基于另一个数据帧的单列派生具有不常见行的数据帧

我遇到了一个问题,我必须根据另一个数据帧的列从数据帧中获取不常见的行。 例子是 第一个数据帧,即 df1 _ID 姓名 12 ABC 56 定义 90 jkl

回答 1 投票 0

REPLACE TABLE AS SELECT 不适用于镶木地板,但它适用于 delta

我正在开发 Azure Databricks,Databricks 运行时版本为 - 14.3 LTS(包括 Apache Spark 3.5.0、Scala 2.12)。我面临以下问题。 假设我有一个名为 v1 的视图和一个

回答 1 投票 0

如何计算 Spark 查询中扫描的字节数

我正在寻找一种简单的方法来衡量通过在 Spark 中执行查询实际读取了多少数据。在最基本的层面上 - 必须在文件级别筛选多少字节......

回答 1 投票 0

使用 Spark SQL 在 Iceberg 表上执行事务块

我想在冰山表上执行 DELETE,然后执行 INSERT。但是我想将它们作为一个块执行,这样要么都成功,要么都不成功。我的冰山表位于胶水数据目录中。我尝试执行...

回答 1 投票 0

如何获取写入的记录数(使用DataFrameWriter的save操作)?

有没有办法获取使用spark保存记录时写入的记录数?虽然我知道它目前不在规范中,但我希望能够执行以下操作: val 计数 = df.write...

回答 3 投票 0

如何在 Spark3 中获取 **add_months** Spark2 行为

我们正在将庞大的代码库从 Spark2 迁移到 Spark 3.x。为了增量迁移,一些配置被设置为旧版,以具有与 Spark 2.x 中相同的行为。函数add_...

回答 2 投票 0

PySpark 中的比较运算符(不等于/!=)

我试图获取数据框中两个标志设置为“1”的所有行,以及随后仅两个标志之一设置为“1”而另一个不等于“1”的所有行 通过以下...

回答 3 投票 0

pyspark 计算多列的平均值/总和,忽略空值

我有这样的数据框。 cols=['a','b','c','d','e','f'] find_mean = F.expr('+'.join(cols))/len(cols) 数据=[( 1,2,3,4,5,无 ),( 1,2,3,4,5,无 ),( 5,4,3,2,1,无 ), (3,4,5,1,2,5)]

回答 1 投票 0

使用pyspark,如何将文件中一行中的多个JSON文档读取到数据帧中?

使用 Spark 2.3,我知道我可以读取这样的 JSON 文档文件: {'key': 'val1'} {'key': 'val2'} 有了这个: Spark.json.read('文件名') 当...时,如何将以下内容读入数据框?

回答 4 投票 0

Spark 数据集何时使用 except 与 Left Anti Join

我想知道调用 except 之间是否存在性能差异(https://spark.apache.org/docs/2.1.0/api/java/org/apache/spark/sql/Dataset.html# except(org .apache.spark.sql.Dataset)和你...

回答 1 投票 0

数组(结构)到数组(映射)—PySpark

我有一个具有以下架构的 df, g_hut:字符串 日期: 日期 arr_data:数组 元素:结构 编号:字符串 Q_Id:字符串 Q_类型:字符串 我想转换 arr_data ...

回答 2 投票 0

如何计算 Spark 中数据帧的大小(以字节为单位)?

我想编写一个带有重新分区的大型数据帧,所以我想计算源数据帧的重新分区数量。 numberofpartition = {数据帧大小/default_blocksize} 如何

回答 1 投票 0

在未安装“openpyxl”模块的情况下,将 pyspark 中的数据帧导出到 excel 文件

我正在尝试将 Spark 数据帧写入 Excel 文件中,通过在 pandas 数据帧中更改它们然后使用来生成所需的报告 panda_df = df.toPandas() writer = pd.ExcelWriter(文件名)

回答 2 投票 0

尝试通过spark Rest api提交pyspark作业但连接被拒绝

我正在使用 ubuntu 系统和版本 3.5.0 的 pyspark 我正在尝试使用curl -X Post 通过spark Rest api 提交作业。 我的文件位于“/home/arbind/spark/arbind/practice/masterslave1.jar”位置...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.