apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

在 Spark SQL 中提取键值对，其中键是 URL，值是字符串

我有一个 JSON 对象，如下所示 “数据”： [ { “密钥ID”：， “关键上下文”： “keyContextValue”： “https://

pyspark apache-spark-sql aws-databricks

回答 1 投票 0

我需要一个databricks sql查询来分解数组列，然后根据数组中的值的数量转换为动态列数

我有一个 json 数据，其中位置是使用以下值导出的数组列 [“美国”、“中国”、“印度”、“英国”] [“尼泊尔”、“中国”、“在...

sql apache-spark-sql pivot-table databricks databricks-sql

回答 2 投票 0

如何向 Spark 数据帧添加结构列？

我有这个数据框：根 |-- ID：字符串（可空 = true） |-- 名称：字符串（可空 = true）示例数据： +------+------+ |身份证 |名称 | +------+------+ | 1 | 'A'| +------+------+ | 2...

dataframe pyspark struct apache-spark-sql

回答 1 投票 0

如何使用 Spark SQL 将数据写入 Apache Iceberg 表？

我正在尝试熟悉 Apache Iceberg，但在理解如何使用 Spark SQL 将一些外部数据写入表中时遇到一些困难。我有一个文件 one.csv，位于目录中...

apache-spark apache-spark-sql iceberg

回答 3 投票 0

在没有hive Metastore的情况下使用spark-sql读取pyspark（hudi格式）创建的表

我将 pysprak 与 hudi 一起使用，并在本地路径 /tmp/table_name 中创建了一个表我想在spark-sql中读取（选择*）同一个表，但是当我显示表时，找不到table_name，我确实使用了

apache-spark pyspark apache-spark-sql apache-hudi

回答 1 投票 0

PySpark DataFrame：有条件地替换列值

我有一个包含两列的 PySpark Dataframe： ID 地址类型 100 1 101 1 102 2 103 2 我想更改 address_type 列中的所有值。当address_type = 1时，应该是Mailing a...

apache-spark pyspark apache-spark-sql

回答 2 投票 0

数据帧的自然连接

SQL 有一个自然的连接操作，但对于数据帧来说似乎没有等效的操作。在 PySpark 中实现自然连接函数的最简单方法是什么？ https://spark.apache.org/docs/latest/...

dataframe apache-spark pyspark apache-spark-sql

回答 1 投票 0

尝试从 EMR 7.0.0 集群写入 S3 时出现 400 错误请求错误

我有一个使用 emr-5.29.0 和 Spark 2.4.4 完美运行的 Spark 应用程序。这个应用程序使用 Spark SQL 写入 S3，如下所示 df .repartition($"年", $"月", $"日&

apache-spark amazon-s3 apache-spark-sql amazon-emr

回答 1 投票 0

如何在写入数据时使用 Apache Iceberg 的 ReplaceWhere 选项

我目前正在尝试使用 Iceberg 将数据写入由partition_date 列分区的外部 Hive 表。在以 Iceberg 格式写入数据之前，测试表有 2 行，（“...

scala apache-spark apache-spark-sql apache-iceberg

回答 1 投票 0

如何将数据集<Row>转换为列表<GenericRecord>

想知道如何将Dataset转换为List。我正在谈论： org.apache.avro.generic.GenericRecord org.apache.spark.sql.数据集 org.apache.spark.sql.Row 达...

java apache-spark apache-spark-sql avro apache-iceberg

回答 1 投票 0

如何在Databricks SparkSQL中使用Try Catch实现错误处理

有没有办法在 Spark-SQL 中实现 try Catch （不在 Pyspark 中），如下所示在 databricks 中。我尝试实现但遇到语法问题。任何示例代码将不胜感激。开始...

apache-spark-sql databricks

回答 1 投票 0

使用 LEAD 获取下一个不同日期

我正在计算 Spark SQL 查询中每个订单的 next_order_date 。但是，当客户在同一日期发生多个订单时，将无法准确计算 next_order_date。 ...

sql apache-spark-sql

回答 1 投票 0

将字段标识符添加到新添加的冰山列

是否可以将具有用户定义字段ID的新列添加到现有的冰山表中？如果是的话，任何人都可以分享给我spark-sql吗？

apache-spark-sql apache-iceberg

回答 1 投票 0

了解 Spark 过滤器下推：它如何与数据加载交互？

我试图了解 Spark 优化技术（例如过滤器下推和分区修剪）在实践中如何工作。考虑以下代码片段： df = Spark.read.csv('路径', header= True,

apache-spark pyspark apache-spark-sql

回答 1 投票 0

Hive 窗口按日期回顾

我有下表日期姓名 2024-02-01 卢克 2024-02-01 爱丽丝 2024-02-01 约翰 2024-02-01 约翰 2024-02-02 标记 2024-02-02 爱丽丝 2024-02-02 标记 2024-02-03 约翰 2024-02-03 约翰 2024-...

apache-spark apache-spark-sql hive

回答 1 投票 0

SQL 查询 - 根据分数不同的 user_ids

我有一个带有表的数据库。该表包含2列：user_id（数字），score（数字）。在我的表中，我可以有多行具有相同的 user_id / 分数，也可以两者都有。我想为每个人展示...

sql apache-spark-sql

回答 2 投票 0

根据上一行导出值

我正在尝试派生新列“final”。列的值是通过引用组内的先前值派生的。在我的数据中，coA、colB、colC、colD 形成一个组，并且在...

python apache-spark pyspark apache-spark-sql

回答 1 投票 0

Spark 是否在同一执行器上执行同一分区？

在解释我的真实案例之前，我会问尽可能简单的问题：如果我使用相同的分区键字段和相同的分区号在同一个数据帧上重新分区 3 次

sql dataframe apache-spark apache-spark-sql

回答 1 投票 0

Pyspark 循环速度非常慢，一次又一次更新相同的数据帧

我想在 databricks pyspark 中实现一个逻辑，我想根据过去 14 天的更新值更新接下来几天的值。我正在使用循环来做到这一点。下面是代码，但速度很慢...

pyspark apache-spark-sql databricks vectorization aws-databricks

回答 1 投票 0

如何统一2个同源的表？

我有一个表格，其中的值具有流程愿景（recours），其他值具有库存愿景（PSAP）。我把这张桌子分成两部分，以便将我的流动视野转换为库存视野，它有效......

sql apache-spark-sql databricks

回答 1 投票 0

apache-spark-sql 相关问题

最新问题