apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

如何在顶部 csv 文件上创建临时视图

如何在顶部 csv 文件上创建临时视图。我正在 Azure Data bricks 中执行此视图创建。帮助我如何创建视图和读取数据。我的数据如下所示：德利米特：~ “1”~&quo...

python sql azure apache-spark-sql databricks

回答 1 投票 0

如何将 SparkDFDataset 添加到我的远大前程验证器中？

感谢您对以下问题的建议。我正在测试远大前程是否可以在我的蜂巢表上使用。理想情况下，我想打开一个 html 文件，显示我对用户朋友的期望......

pyspark apache-spark-sql hive great-expectations apache-spark-3.0

回答 1 投票 0

非法模式字符：读取yaml时n

我有一个具有以下定义的yaml，但是在读取文件时我收到错误#错误：运行读取报告配置时失败。非法模式字符：n - 来源：内部

apache-spark-sql yaml

回答 1 投票 0

如何在 Spark SQL 中向时间戳添加分钟？

我有一个 SQL Server 代码片段，其中存储过程。使用 DATEADD 函数将分钟添加到时间戳。这是代码： DATEADD（分钟，要添加的分钟数，时间戳列）AS new_time...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

迁移到 python 3.12.2 在 Spark 数据帧创建期间会生成 PicklingError

我对spark、spark上下文元素和处理它们不是很有经验...请就以下问题提出建议：我曾经运行过一个测试，涉及在 pyth 中创建模拟 Spark 上下文......

python-3.x apache-spark pyspark apache-spark-sql

回答 1 投票 0

PySpark to_date 函数在一年中的第 1 周返回 null

当我在 to_date 函数中使用一年中的第几周时，一年中的第一周多年来都返回 null。 df=pyrasa.sparkSession.createDataFrame([["2013-01"],["2013-02"],["...

apache-spark datetime pyspark apache-spark-sql week-number

回答 3 投票 0

Spark 保留临时视图

我试图保留一个临时视图，以便通过sql再次查询它： val df = Spark.sqlContext.read.option("header", true).csv("xxx.csv") df.createOrReplaceTempView(“xxx”) 坚持/cac...

sql scala apache-spark apache-spark-sql persist

回答 1 投票 0

即使缺少某些行，如何查找特定窗口期的平均销售额

我想查找 Spark SQL 中商品过去 4 周的平均销售额。物品周数销售量 1 202401 4 1 202402 6 1 202403 2 1 202404 6 2 202401 4 2 202402 1 2 202403 1 3 202401 8 我想要...

sql mysql apache-spark apache-spark-sql

回答 1 投票 0

如果存在特定值，如何删除重复项

我的 SparkSQL DataFrame 如下所示： +------------+----------+----------+----------+ |a |b |c |d | +----------+----------+----------+----------+ | 123| ...

apache-spark apache-spark-sql

回答 1 投票 0

为什么我在spark中的峰值执行内存是0？

数据文件（CSV）说明：磁盘上 12.1GiB 序列化内存 - 1.9 GiB 我运行以下代码： ###进口导入pyspark 从 pyspark.sql 导入 SparkSession 从 pyspark.sql 导入函数...

apache-spark pyspark apache-spark-sql

回答 2 投票 0

您知道如何在 Databricks 集群上安装“ODBC Driver 17 for PostgreSQL”吗？

我正在尝试通过 Azure Databricks 笔记本运行 postgreSQL 存储过程。我们已经在 Azure Database for PostgreSQL 中编写了存储过程，并且想要运行 postgreSQL 存储过程...

postgresql apache-spark-sql azure-data-factory databricks azure-databricks

回答 1 投票 0

如何在 Spark SQL 中访问 R 变量

我在 Azure Databricks 的笔记本文件的 %r 单元格中创建了多个 R 变量。我想访问该变量以在同一笔记本的 %sql 单元格的查询中的 where 子句中使用。它...

apache-spark-sql databricks sparkr

回答 1 投票 0

Databricks 合并到 - 添加插入另一个表的条件

我有一个名为“结果”的增量表，我有一个需要按顺序对结果执行的操作列表。给定操作列表：['op_1', 'op_2', 'op_3'] op_1 修改 va...

pyspark apache-spark-sql databricks delta-lake

回答 1 投票 0

将字符串列表转换为数组类型

我有一个带有字符串数据类型列的数据框，但实际表示是数组类型。导入pyspark 从 pyspark.sql 导入行 item = Spark.createDataFrame([Row(item='鱼',地理=['

arrays apache-spark pyspark apache-spark-sql type-conversion

回答 3 投票 0

如何将 SQL Date ADD 脚本迁移为 Spark 支持的 SQL 格式

我必须为了增量加载目的实现删除操作，因此我必须执行以下查询语句来迁移支持的 Spark SQL。基于 SQL 的查询 DATEADD(天, 1, EOMONTH(

sql apache-spark-sql azure-databricks

回答 1 投票 0

Databricks - 不为空，但它不是 Delta 表

我在 Databricks 上运行查询：如果存在则删除表 dublicates_hotels；如果不存在则创建表 dublicates_hotels ... 我试图理解为什么我收到以下错误： SQL 统计错误...

apache-spark-sql databricks delta-lake

回答 4 投票 0

如何在PySpark中获取数组类型列的L2范数？

我有一个 PySpark 数据框。 df1 = Spark.createDataFrame([ （“u1”，[0,1,2]），（“u1”，[1,2,3]），（“u2”，[2,3,4]）， ], ['user_id', '功能']) 公关...

dataframe apache-spark pyspark apache-spark-sql

回答 2 投票 0

在 pyspark 中的自定义分隔符上拆分字符串

我有 foo 列的数据，可以是富 abcdef_zh abcdf_grtyu_zt pqlmn@xl 从这里我想创建两列第 1 部分第 2 部分 abcdef zh abcdf_grtyu zt pqlmn x...

pyspark apache-spark-sql

回答 2 投票 0

使用azure sql数据库时如何解决pyspark中的.load()函数问题

我在使用 pyspark 使用 python 从 azure sql 数据库加载数据时遇到错误。任何人都可以纠正这个问题。我的所有连接详细信息都是正确的，因为如果我删除 .load(0 func...

pyspark apache-spark-sql azure-sql-database

回答 1 投票 0

如何使用 pyspark 或 sql 根据 2 列之间的匹配值对值进行分组

假设我们有一个数据框如果我们观察数据。 4-1234 和 4-1235 代码与 MUMS12345A tan 相关。如果我们从 tanlist 列中看到，则相反。 MUMS12345A 晒黑与...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

apache-spark-sql 相关问题

最新问题