apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

在 pyspark 中的自定义分隔符上拆分字符串

我有 foo 列的数据,可以是 富 abcdef_zh abcdf_grtyu_zt pqlmn@xl 从这里我想创建两列 第 1 部分 第 2 部分 abcdef zh abcdf_grtyu zt pqlmn x...

回答 2 投票 0

使用azure sql数据库时如何解决pyspark中的.load()函数问题

我在使用 pyspark 使用 python 从 azure sql 数据库加载数据时遇到错误。 任何人都可以纠正这个问题。 我的所有连接详细信息都是正确的,因为如果我删除 .load(0 func...

回答 1 投票 0

如何使用 pyspark 或 sql 根据 2 列之间的匹配值对值进行分组

假设我们有一个数据框 如果我们观察数据。 4-1234 和 4-1235 代码与 MUMS12345A tan 相关。如果我们从 tanlist 列中看到,则相反。 MUMS12345A 晒黑与...

回答 1 投票 0

如何在Spark SQL中解析XML?

尝试解析spark sql 2.3.0存储的xml列。 Xml 字符串如下所示: 123 ...

回答 1 投票 0

Spark 无法使用 Spark-xml 提取 rootTag 元素

我想使用Spark(spark-xml版本0.13.0 scala 2.11)从xml文件中提取rootTag元素。但它无法这样做。 例如xml如下: 我想使用 Spark (spark-xml 版本 0.13.0 scala 2.11)从 xml 文件中提取 rootTag 元素。但它无法这样做。 例如xml如下: <?xml version="1.0"?> <catalog> <dt_creation>13-03-2023</dt_creation> <book id="bk101"> <author>Gambardella, Matthew</author> <title>XML Developer's Guide</title> <price>44.95</price> <publish_date>2000-10-01</publish_date> <description> Oracle Streams Advanced Queuing XMLType support. </description></book><book id="bk102"> <price>5.95</price> </book> </catalog> 我想使用 Spark 代码从 rootTag 获取 dt_creation 字段,如下所示: val df = sparkSession.read .format("xml") .option("rootTag", "catalog") .option("rowTag", "book") .load(above-xml-file) df.select("dt_creation").collect() 它导致 AnalysisException@12599“org.apache.spark.sql.AnalysisException: 无法解析给定输入列的“dt_creation”:[描述, 价格、流派、发布日期、标题、_id、作者];; '项目 ['dt_creation] 如何真正提取存在于 rowTag 之外的此类 rootTag 元素? 我认为不可能获取rootTag属性。请参考此问题:https://github.com/databricks/spark-xml/issues/503 您可以在根处读取 rowTag,然后将其分解并展开,如下所示。 df = (spark.read.format("com.databricks.spark.xml") .option("rowTag", "catalog") .load(xmlFile) ) df.printSchema() (df.withColumn("book", explode(col("book"))) .select("dt_creation", "book.*") .show(truncate=False))```

回答 2 投票 0

在 Spark SQL 中计算运行总和

我正在研究一个逻辑,我需要根据每日扫描计数计算totalscan、last5dayscan、month2dayscan。截至今天,我每天都会对每日扫描计数进行汇总,但现在数据量让

回答 1 投票 0

如何在scala数据帧中将Array[Long]转换为Vector类型?

我有这样的数据框: +------+-----+--------------------+---------------- ----+ | ID|标签|时间戳|信号列表| +------+-----+--------------------+---------------- ----+ |

回答 2 投票 0

读取文件夹中的增量表特定文件

我正在尝试从包含多个增量文件的文件夹中读取特定文件,请参阅随附的屏幕截图 我希望根据架构版本读取增量文件的原因。下面...

回答 2 投票 0

如何组合两个数据集来创建嵌套 JSON 对象列表

我是 Apache Spark (Java) 的新手,正在尝试创建一个由多个 json 对象组成的文本文件,这些对象表示这两个数据集的组合。第一代到第二代很长...

回答 1 投票 0

Spark:如何将行分组到固定大小的数组中?

我有一个如下所示的数据集: +---+ |col| +---+ |一个| |乙| | c| | d| |电子| | f| |克| +---+ 我想重新格式化这个数据集,以便将行聚合到固定长度的数组中,...

回答 2 投票 0

连接两个 PySpark 数据帧而不重复行

我有以下两个 PySpark 数据框: df1: 第1列 列2 第3栏 第4栏 一些价值 一些价值 一些价值 一些值1 df2: 第1列 列2 第3栏 第5栏 一些价值 一些价值 一些v...

回答 2 投票 0

Pyspark 在数组元素上应用正则表达式模式

我有下面的 Pyspark 代码来验证嵌套 json 中的字段 - “当 array_contains(transform(RECORDS_003.DATA.TOTAL_CHARGE, x -> trim(x)), '') 或存在时(RECORDS_003.DATA.TOTAL_CHARG...

回答 1 投票 0

Pyspark -- 过滤包含空值的 ArrayType 行

我是 PySpark 的初学者。假设我有一个像这样的 Spark 数据框: test_df = Spark.createDataFrame(pd.DataFrame({"a":[[1,2,3], [无,2,3], [无,无,无]]})) 现在我希望过滤...

回答 4 投票 0

Spark SQL 查询将字符串列添加到结构数组

我正在 Adobe Experience Platform 中从事查询服务。它使用此处列出的有限 Spark SQL 函数。 我有下表 姓名 地址类型 客户详细信息 -------------...

回答 1 投票 0

如何修改pyspark dataframe嵌套结构列

我正在尝试对嵌套列进行匿名/哈希处理,但尚未成功。该架构看起来像这样: -- abc: 结构(可空 = true) | |-- xyz:结构(可空 = true) | | |--

回答 2 投票 0

如何使用 pyspark 更新结构体嵌套列中的值

我尝试做非常简单的事情 - 更新嵌套列的值;但是,我不知道如何 环境: 阿帕奇火花2.4.5 数据块 6.4 Python 3.7 数据DF = [ (('乔恩','','史密斯'),'1580-01-06...

回答 3 投票 0

无法使用 Spark dataframe 和 scala 创建 CSV,而是创建文件夹名称中包含“.csv”的文件夹

我无法使用 Spark 数据框编写或创建 csv。相反,它为我创建目录。这是我的代码 com.package.dssupplier 包 导入 org.apache.spark.sql.{SaveMode、SparkSessi...

回答 1 投票 0

读取多个 CSV 文件,每个 CSV 文件的列数不同

我想使用 PySpark 读取具有不同列数的多个 CSV 文件。 文件=['数据/f1.csv','数据/f2.csv','数据/f3.csv','数据/f4.csv','数据/f5.csv'] f1 文件有 50 列,f2 有 10 ...

回答 3 投票 0

分解并解析pyspark字符串列数据帧的json数组

我有 PySpark DataFrame,其中列映射结果具有字符串格式,并且其中包含两个 json 数组 Spark.createDataFrame(pd.DataFrame({'服务器': {0: '3456gj', 1: '56ujdn98', 2:'56v95...

回答 1 投票 0

致命错误 Python 内核无响应 Databricks

最近我在 pyspark 中遇到了一个问题,比如致命错误:python 内核无响应。是内存错误还是其他类型的错误?有人可以解释一下吗?

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.