apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

如何从数组（1, 2, null, 3, null）中删除空项？当我们想要删除空项时，使用 array_remove 函数没有帮助。

arrays apache-spark pyspark apache-spark-sql null

回答 3 投票 0

我是 pyspark 新手，我需要帮助解决以下问题。文件_1 #d1：u1 | d2:u2 | d3:u3 #d4：u4 | d5:u5 #d6:u6 | d7:u7 #o/p ＃表格1 第 1 列：第 2 列 d1：u1 d2：u2 d3：u3 d4：u4 d5：u5 #o/p...

dataframe apache-spark pyspark apache-spark-sql

回答 1 投票 0

如何从databricks中的增量文件中删除数据？

我想从databricks中的增量文件中删除数据。我正在使用这些命令前任： PR=spark.read.format('delta').options(header=True).load('/mnt/landing/Base_Tables/EventHistory/') PR.write.format(...

sql pyspark apache-spark-sql azure-databricks delta-lake

回答 5 投票 0

从 Pyspark Dataframe 中提取 numpy 数组

我有一个数据框 gi_man_df 其中组可以是 n： +------------------+-----------------+--------+--- ------------+ |组 |数字|rand_int| rand_double| +------------------...

numpy apache-spark pyspark apache-spark-sql apache-spark-mllib

回答 3 投票 0

Spark SQL 查询失败并出现 NullPointerException

我正在尝试运行一个非常简单的涉及 join 和 orderby 子句的 SQL 查询，然后在最外面的 select stmt 中使用 UUID() 函数。查询失败 val query = Spark.sql("选择名称，u...

sql apache-spark apache-spark-sql uuid apache-spark-2.0

回答 1 投票 0

Spark Parquet 读取错误：java.io.EOFException：已到达流末尾，还剩 XXXXX 字节可供读取

在spark中读取parquet文件时，如果遇到以下问题。应用程序 > 线程“main”org.apache.spark.SparkException 中出现异常：作业因阶段失败而中止：阶段 2.0 中的任务 0 失败 4

apache-spark apache-spark-sql parquet

回答 3 投票 0

基于另一个数据帧的单列派生具有不常见行的数据帧

我遇到了一个问题，我必须根据另一个数据帧的列从数据帧中获取不常见的行。例子是第一个数据帧，即 df1 _ID 姓名 12 ABC 56 定义 90 jkl

dataframe scala apache-spark apache-spark-sql spark-streaming

回答 1 投票 0

REPLACE TABLE AS SELECT 不适用于镶木地板，但它适用于 delta

我正在开发 Azure Databricks，Databricks 运行时版本为 - 14.3 LTS（包括 Apache Spark 3.5.0、Scala 2.12）。我面临以下问题。假设我有一个名为 v1 的视图和一个

apache-spark-sql azure-databricks

回答 1 投票 0

如何计算 Spark 查询中扫描的字节数

我正在寻找一种简单的方法来衡量通过在 Spark 中执行查询实际读取了多少数据。在最基本的层面上 - 必须在文件级别筛选多少字节......

apache-spark apache-spark-sql apache-iceberg

回答 1 投票 0

使用 Spark SQL 在 Iceberg 表上执行事务块

我想在冰山表上执行 DELETE，然后执行 INSERT。但是我想将它们作为一个块执行，这样要么都成功，要么都不成功。我的冰山表位于胶水数据目录中。我尝试执行...

pyspark apache-spark-sql aws-glue apache-iceberg

回答 1 投票 0

如何获取写入的记录数（使用DataFrameWriter的save操作）？

有没有办法获取使用spark保存记录时写入的记录数？虽然我知道它目前不在规范中，但我希望能够执行以下操作： val 计数 = df.write...

scala apache-spark apache-spark-sql

回答 3 投票 0

如何在 Spark3 中获取 **add_months** Spark2 行为

我们正在将庞大的代码库从 Spark2 迁移到 Spark 3.x。为了增量迁移，一些配置被设置为旧版，以具有与 Spark 2.x 中相同的行为。函数add_...

apache-spark apache-spark-sql spark3

回答 2 投票 0

PySpark 中的比较运算符（不等于/！=）

我试图获取数据框中两个标志设置为“1”的所有行，以及随后仅两个标志之一设置为“1”而另一个不等于“1”的所有行通过以下...

sql apache-spark pyspark null apache-spark-sql

回答 3 投票 0

pyspark 计算多列的平均值/总和，忽略空值

我有这样的数据框。 cols=['a','b','c','d','e','f'] find_mean = F.expr('+'.join(cols))/len(cols) 数据=[( 1,2,3,4,5,无 ),( 1,2,3,4,5,无 ),( 5,4,3,2,1,无 ), (3,4,5,1,2,5)]

apache-spark pyspark apache-spark-sql

回答 1 投票 0

使用pyspark，如何将文件中一行中的多个JSON文档读取到数据帧中？

使用 Spark 2.3，我知道我可以读取这样的 JSON 文档文件： {'key': 'val1'} {'key': 'val2'} 有了这个： Spark.json.read('文件名') 当...时，如何将以下内容读入数据框？

apache-spark dataframe pyspark apache-spark-sql

回答 4 投票 0

Spark 数据集何时使用 except 与 Left Anti Join

我想知道调用 except 之间是否存在性能差异（https://spark.apache.org/docs/2.1.0/api/java/org/apache/spark/sql/Dataset.html# except(org .apache.spark.sql.Dataset）和你...

apache-spark apache-spark-sql anti-join

回答 1 投票 0

数组（结构）到数组（映射）—PySpark

我有一个具有以下架构的 df， g_hut：字符串日期：日期 arr_data:数组元素：结构编号：字符串 Q_Id：字符串 Q_类型：字符串我想转换 arr_data ...

python arrays apache-spark pyspark apache-spark-sql

回答 2 投票 0

如何计算 Spark 中数据帧的大小（以字节为单位）？

我想编写一个带有重新分区的大型数据帧，所以我想计算源数据帧的重新分区数量。 numberofpartition = {数据帧大小/default_blocksize} 如何

scala apache-spark apache-spark-sql size spark-streaming

回答 1 投票 0

在未安装“openpyxl”模块的情况下，将 pyspark 中的数据帧导出到 excel 文件

我正在尝试将 Spark 数据帧写入 Excel 文件中，通过在 pandas 数据帧中更改它们然后使用来生成所需的报告 panda_df = df.toPandas() writer = pd.ExcelWriter(文件名)

python excel pandas pyspark apache-spark-sql

回答 2 投票 0

尝试通过spark Rest api提交pyspark作业但连接被拒绝

我正在使用 ubuntu 系统和版本 3.5.0 的 pyspark 我正在尝试使用curl -X Post 通过spark Rest api 提交作业。我的文件位于“/home/arbind/spark/arbind/practice/masterslave1.jar”位置...

apache-spark hadoop pyspark apache-spark-sql data-engineering

回答 1 投票 0

apache-spark-sql 相关问题

最新问题