apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

如何在 BigQuery PySpark 存储过程中运行标准 SQL 查询

我在 Bigquery 中运行以下 PySpark 存储过程; 从 pyspark.sql 导入 SparkSession Spark = SparkSession.builder.appName("work_with_sql").getOrCreate() df = Spark.sql( ''' 选择...

回答 2 投票 0

如何在一个字符串中读取整个文件

我想读取 pyspark.lf 中的 json 或 xml 文件,如果我的文件被分成多行 rdd= sc.textFile(json 或 xml) 输入 { “ 雇员”: [ { "firstName":"约翰", ”

回答 6 投票 0

如何在没有 UDF 的情况下计算 PySpark 数据帧中数组列中的尾随零数

我有一个数据框,其中有一列具有固定数量的整数的数组。 如何向 df 添加包含数组中尾随零数量的列? 我想避免使用...

回答 5 投票 0

如何按列表顺序对 PySpark 数据帧行进行排序?

我有一个包含多个列的 pySpark 数据框和一个包含其中一个列项目的列表。我想按给定列表的顺序对行进行排序。 可乐 列_B 列_c a1 b1 c1 a2 b2 c2 ...

回答 1 投票 0

ParseException:输入时没有可行的替代方案

我尝试在 Azure 数据块中运行以下查询。 查询=s"""WITH pre_file_user AS( 选择 ID, 类型ID, 当 dttm 为 null 或 dttm='' 时的情况...

回答 3 投票 0

如何仅使用Spark SQL读取dbfs中的csv文件?

我正在开发databricks交互式集群,我想使用SQL查询存储在ADLS或DBFS中的csv文件。 问题: 我可以轻松地对增量表和镶木地板文件执行此操作。但是,当我执行此操作时...

回答 1 投票 0

在 Pyspark 中处理不同的日期格式

我正在尝试使用 pyspark 处理不同的日期数据格式。我尝试使用 to_timestamp 但没有得到预期的输出。任何帮助将不胜感激。 以下是我的输入和

回答 1 投票 0

数据库结构/文件格式可持久保存 100TB 表并支持在 Spark SQL 中使用谓词进行高效数据跳过

我正在优化 Spark SQL ETL,以频繁地从 S3 上的 1000 亿行、100TB parquet 格式表“event_100B”中选择 0.1% 的数据。 表 event_100B 包含唯一键列 EventId (32...

回答 1 投票 0

如何根据主键从表中删除重复行?

我在 Dataframe 中加载了一个表,并且尝试将 groupBy 与 PK 一起使用。 df_remitInsert = Spark.sql("""从 trac_analytics.mainremitdata 中选择 *""") df_remitInsert_fil...

回答 1 投票 0

Aws Athena SQL 查询在 Apache Spark 中不起作用

我的查询在 Athena 中工作,但在 Spark SQL 中不起作用。 询问- 将 cte 作为 ( 选择年份(日期)作为年份,计数(*)作为总计,计数(col1)作为 col1_not_null,计数(col2)作为 col2_not_null 来自

回答 1 投票 0

如何在 Spark/Scala 中使用另一列的分隔符来拆分列

我还有一个与 split 函数相关的问题。 我是 Spark/Scala 新手。 下面是示例数据框 - +--------------------+---------+ |值|分隔符| +----------...

回答 5 投票 0

在pyspark中向多级嵌套结构添加一列

我有一个具有以下结构的 pyspark 数据框。 当前架构: 根 |-- 身份证号 |-- 资讯 | |-- 姓名 | |-- 年龄 | |-- 性别 |-- 描述 我想添加名字和姓氏...

回答 3 投票 0

为什么枢轴在嵌套选择中起作用,但在单个选择中不起作用?

以下作品 创建或替换临时视图 events_pivot AS 选择 * 从 ( SELECT user_id 用户,事件名称 来自事件) 枢轴( count(*) FOR 事件名称 IN (“购物车”,“

回答 1 投票 0

PySpark:如何最有效地读取具有不同列位置的多个 CSV 文件

我正在尝试使用 Spark 以最有效的方式读取目录中的多个 CSV 文件。不幸的是,除了单独读取每个文件之外,我还没有找到更好的方法来做到这一点,

回答 1 投票 0

如何在pyspark中的同一列上同时使用group by和order by

我是 pyspark 的初学者。我想知道如何在同一列上同时使用 order by 和 group by 。我的疑问如下。我的期望是以字母顺序显示 user_state...

回答 1 投票 0

Spark jdbc 覆盖模式未按预期工作

我想使用spark执行更新和插入操作 请查找现有表格的图像参考 在这里,我更新 id :101 位置和插入时间并插入另外 2 条记录: ...

回答 6 投票 0

在 hive 中读取奇怪的日期格式

我有一列包含日期作为字符串,但有多种格式,例如 - dd/MM/yy、dd/MMM/yyy .. 等等。我使用以下代码将所有字符串转换为一种特定的日期格式(yyyy-...

回答 1 投票 0

Spark sql 创建并引用映射/查找表,如 Qlik 的 applymap 函数

我正在 Azure Synapse Spark sql 笔记本中工作,我有一个查找表,其中包含主表中 15 个代码字段的显示值。我想避免将查找表加入...

回答 1 投票 0

“hoodie.parquet.max.file.size”和“hoodie.parquet.small.file.limit”属性被忽略

我希望我的连帽衫文件大小在小 = 50MB 和最大 = 100MB 之间。 以下配置用作更新插入的地图选项: val hudiOptions = Map[字符串, 字符串]( HoodieWriteConfig.TBL...

回答 1 投票 0

处理 pyspark 中的动态列数(csv 文件)

我收到下面的 CSV 文件(没有标题)- D,neel,32,1,pin1,state1,公头 D,sani,31,2,pin1,state1,pin2,state2,女 D,raja,33,3,pin1,state1,pin2,state2,pin3,state3,男 我想创造...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.