Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。
我试图保留一个临时视图,以便通过sql再次查询它: val df = Spark.sqlContext.read.option("header", true).csv("xxx.csv") df.createOrReplaceTempView(“xxx”) 坚持/cac...
我想查找 Spark SQL 中商品过去 4 周的平均销售额。 物品 周数 销售量 1 202401 4 1 202402 6 1 202403 2 1 202404 6 2 202401 4 2 202402 1 2 202403 1 3 202401 8 我想要...
我的 SparkSQL DataFrame 如下所示: +------------+----------+----------+----------+ |a |b |c |d | +----------+----------+----------+----------+ | 123| ...
数据文件(CSV)说明: 磁盘上 12.1GiB 序列化内存 - 1.9 GiB 我运行以下代码: ###进口 导入pyspark 从 pyspark.sql 导入 SparkSession 从 pyspark.sql 导入函数...
您知道如何在 Databricks 集群上安装“ODBC Driver 17 for PostgreSQL”吗?
我正在尝试通过 Azure Databricks 笔记本运行 postgreSQL 存储过程。 我们已经在 Azure Database for PostgreSQL 中编写了存储过程,并且想要运行 postgreSQL 存储过程...
我在 Azure Databricks 的笔记本文件的 %r 单元格中创建了多个 R 变量。我想访问该变量以在同一笔记本的 %sql 单元格的查询中的 where 子句中使用。 它...
我有一个名为“结果”的增量表,我有一个需要按顺序对结果执行的操作列表。 给定操作列表:['op_1', 'op_2', 'op_3'] op_1 修改 va...
我有一个带有字符串数据类型列的数据框,但实际表示是数组类型。 导入pyspark 从 pyspark.sql 导入行 item = Spark.createDataFrame([Row(item='鱼',地理=['
如何将 SQL Date ADD 脚本迁移为 Spark 支持的 SQL 格式
我必须为了增量加载目的实现删除操作,因此我必须执行以下查询语句来迁移支持的 Spark SQL。 基于 SQL 的查询 DATEADD(天, 1, EOMONTH(
我在 Databricks 上运行查询: 如果存在则删除表 dublicates_hotels; 如果不存在则创建表 dublicates_hotels ... 我试图理解为什么我收到以下错误: SQL 统计错误...
我有一个 PySpark 数据框。 df1 = Spark.createDataFrame([ (“u1”,[0,1,2]), (“u1”,[1,2,3]), (“u2”,[2,3,4]), ], ['user_id', '功能']) 公关...
我有 foo 列的数据,可以是 富 abcdef_zh abcdf_grtyu_zt pqlmn@xl 从这里我想创建两列 第 1 部分 第 2 部分 abcdef zh abcdf_grtyu zt pqlmn x...
使用azure sql数据库时如何解决pyspark中的.load()函数问题
我在使用 pyspark 使用 python 从 azure sql 数据库加载数据时遇到错误。 任何人都可以纠正这个问题。 我的所有连接详细信息都是正确的,因为如果我删除 .load(0 func...
如何使用 pyspark 或 sql 根据 2 列之间的匹配值对值进行分组
假设我们有一个数据框 如果我们观察数据。 4-1234 和 4-1235 代码与 MUMS12345A tan 相关。如果我们从 tanlist 列中看到,则相反。 MUMS12345A 晒黑与...
尝试解析spark sql 2.3.0存储的xml列。 Xml 字符串如下所示: 123 ...
Spark 无法使用 Spark-xml 提取 rootTag 元素
我想使用Spark(spark-xml版本0.13.0 scala 2.11)从xml文件中提取rootTag元素。但它无法这样做。 例如xml如下: 我想使用 Spark (spark-xml 版本 0.13.0 scala 2.11)从 xml 文件中提取 rootTag 元素。但它无法这样做。 例如xml如下: <?xml version="1.0"?> <catalog> <dt_creation>13-03-2023</dt_creation> <book id="bk101"> <author>Gambardella, Matthew</author> <title>XML Developer's Guide</title> <price>44.95</price> <publish_date>2000-10-01</publish_date> <description> Oracle Streams Advanced Queuing XMLType support. </description></book><book id="bk102"> <price>5.95</price> </book> </catalog> 我想使用 Spark 代码从 rootTag 获取 dt_creation 字段,如下所示: val df = sparkSession.read .format("xml") .option("rootTag", "catalog") .option("rowTag", "book") .load(above-xml-file) df.select("dt_creation").collect() 它导致 AnalysisException@12599“org.apache.spark.sql.AnalysisException: 无法解析给定输入列的“dt_creation”:[描述, 价格、流派、发布日期、标题、_id、作者];; '项目 ['dt_creation] 如何真正提取存在于 rowTag 之外的此类 rootTag 元素? 我认为不可能获取rootTag属性。请参考此问题:https://github.com/databricks/spark-xml/issues/503 您可以在根处读取 rowTag,然后将其分解并展开,如下所示。 df = (spark.read.format("com.databricks.spark.xml") .option("rowTag", "catalog") .load(xmlFile) ) df.printSchema() (df.withColumn("book", explode(col("book"))) .select("dt_creation", "book.*") .show(truncate=False))```
我正在研究一个逻辑,我需要根据每日扫描计数计算totalscan、last5dayscan、month2dayscan。截至今天,我每天都会对每日扫描计数进行汇总,但现在数据量让
如何在scala数据帧中将Array[Long]转换为Vector类型?
我有这样的数据框: +------+-----+--------------------+---------------- ----+ | ID|标签|时间戳|信号列表| +------+-----+--------------------+---------------- ----+ |
我正在尝试从包含多个增量文件的文件夹中读取特定文件,请参阅随附的屏幕截图 我希望根据架构版本读取增量文件的原因。下面...
我是 Apache Spark (Java) 的新手,正在尝试创建一个由多个 json 对象组成的文本文件,这些对象表示这两个数据集的组合。第一代到第二代很长...