apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

根据上一行导出值

我正在尝试派生新列“final”。列的值是通过引用组内的先前值派生的。在我的数据中,coA、colB、colC、colD 形成一个组,并且在...

回答 1 投票 0

Spark 是否在同一执行器上执行同一分区?

在解释我的真实案例之前,我会问尽可能简单的问题: 如果我使用相同的分区键字段和相同的分区号在同一个数据帧上重新分区 3 次

回答 1 投票 0

Pyspark 循环速度非常慢,一次又一次更新相同的数据帧

我想在 databricks pyspark 中实现一个逻辑,我想根据过去 14 天的更新值更新接下来几天的值。我正在使用循环来做到这一点。下面是代码,但速度很慢...

回答 1 投票 0

如何统一2个同源的表?

我有一个表格,其中的值具有流程愿景(recours),其他值具有库存愿景(PSAP)。我把这张桌子分成两部分,以便将我的流动视野转换为库存视野,它有效......

回答 1 投票 0

从 PySpark 数组中删除 NULL 项

如何从数组(1, 2, null, 3, null)中删除空项? 当我们想要删除空项时,使用 array_remove 函数没有帮助。

回答 3 投票 0

使用 pyspark 找到以下输出

我是 pyspark 新手,我需要帮助解决以下问题。 文件_1 #d1:u1 | d2:u2 | d3:u3 #d4:u4 | d5:u5 #d6:u6 | d7:u7 #o/p #表格1 第 1 列:第 2 列 d1:u1 d2:u2 d3:u3 d4:u4 d5:u5 #o/p...

回答 1 投票 0

如何从databricks中的增量文件中删除数据?

我想从databricks中的增量文件中删除数据。 我正在使用这些命令 前任: PR=spark.read.format('delta').options(header=True).load('/mnt/landing/Base_Tables/EventHistory/') PR.write.format(...

回答 5 投票 0

从 Pyspark Dataframe 中提取 numpy 数组

我有一个数据框 gi_man_df 其中组可以是 n: +------------------+-----------------+--------+--- ------------+ |组 |数字|rand_int| rand_double| +------------------...

回答 3 投票 0

Spark SQL 查询失败并出现 NullPointerException

我正在尝试运行一个非常简单的涉及 join 和 orderby 子句的 SQL 查询,然后在最外面的 select stmt 中使用 UUID() 函数。查询失败 val query = Spark.sql("选择名称,u...

回答 1 投票 0

Spark Parquet 读取错误:java.io.EOFException:已到达流末尾,还剩 XXXXX 字节可供读取

在spark中读取parquet文件时,如果遇到以下问题。 应用程序 > 线程“main”org.apache.spark.SparkException 中出现异常:作业因阶段失败而中止:阶段 2.0 中的任务 0 失败 4

回答 3 投票 0

基于另一个数据帧的单列派生具有不常见行的数据帧

我遇到了一个问题,我必须根据另一个数据帧的列从数据帧中获取不常见的行。 例子是 第一个数据帧,即 df1 _ID 姓名 12 ABC 56 定义 90 jkl

回答 1 投票 0

REPLACE TABLE AS SELECT 不适用于镶木地板,但它适用于 delta

我正在开发 Azure Databricks,Databricks 运行时版本为 - 14.3 LTS(包括 Apache Spark 3.5.0、Scala 2.12)。我面临以下问题。 假设我有一个名为 v1 的视图和一个

回答 1 投票 0

如何计算 Spark 查询中扫描的字节数

我正在寻找一种简单的方法来衡量通过在 Spark 中执行查询实际读取了多少数据。在最基本的层面上 - 必须在文件级别筛选多少字节......

回答 1 投票 0

使用 Spark SQL 在 Iceberg 表上执行事务块

我想在冰山表上执行 DELETE,然后执行 INSERT。但是我想将它们作为一个块执行,这样要么都成功,要么都不成功。我的冰山表位于胶水数据目录中。我尝试执行...

回答 1 投票 0

如何获取写入的记录数(使用DataFrameWriter的save操作)?

有没有办法获取使用spark保存记录时写入的记录数?虽然我知道它目前不在规范中,但我希望能够执行以下操作: val 计数 = df.write...

回答 3 投票 0

如何在 Spark3 中获取 **add_months** Spark2 行为

我们正在将庞大的代码库从 Spark2 迁移到 Spark 3.x。为了增量迁移,一些配置被设置为旧版,以具有与 Spark 2.x 中相同的行为。函数add_...

回答 2 投票 0

PySpark 中的比较运算符(不等于/!=)

我试图获取数据框中两个标志设置为“1”的所有行,以及随后仅两个标志之一设置为“1”而另一个不等于“1”的所有行 通过以下...

回答 3 投票 0

pyspark 计算多列的平均值/总和,忽略空值

我有这样的数据框。 cols=['a','b','c','d','e','f'] find_mean = F.expr('+'.join(cols))/len(cols) 数据=[( 1,2,3,4,5,无 ),( 1,2,3,4,5,无 ),( 5,4,3,2,1,无 ), (3,4,5,1,2,5)]

回答 1 投票 0

使用pyspark,如何将文件中一行中的多个JSON文档读取到数据帧中?

使用 Spark 2.3,我知道我可以读取这样的 JSON 文档文件: {'key': 'val1'} {'key': 'val2'} 有了这个: Spark.json.read('文件名') 当...时,如何将以下内容读入数据框?

回答 4 投票 0

Spark 数据集何时使用 except 与 Left Anti Join

我想知道调用 except 之间是否存在性能差异(https://spark.apache.org/docs/2.1.0/api/java/org/apache/spark/sql/Dataset.html# except(org .apache.spark.sql.Dataset)和你...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.