pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

如何使用 pysaprk databricks 替换基于其他数据帧的数据帧中的值

我的数据块笔记本中有两个数据框。例如数据如下所示: df1: 身份证号码 1 200/300A/200B 2 805/805B/500 3 22A+100B 4 ; 5 df2: id 805 200B 22A 现在我想回复...

回答 1 投票 0

使用 Spark.read 读取 csv 文件时,数据在传递架构时未加载到适当的列中

我正在尝试使用spark.read函数从存储位置读取csv文件。另外,我明确地将架构传递给函数。但是,数据未加载到

回答 1 投票 0

“spark.jars.packages”在 AWS Glue 和 Spark 中未按预期工作

我想在 Spark 会话中使用一些 Maven 存储库 JAR 文件,因此我使用“spark.jars.packages”创建会话,它将自动下载 JAR。这没有按预期工作...

回答 1 投票 0

如何使用 pyspark 根据间隙总和插入缺失值?

我有一个包含四个字段的时间序列数据集,例如:user_id、timestamp、miles 和total_mileage。英里是在一个时间步长内行驶的英里数,total_mileage 是汽车的里程......

回答 1 投票 0

通过缓存重用相同的数据帧

我有一个名为 dataframe_1 的 DataFrame,它在我的 PySpark 代码的多个部分中被引用。为了优化性能,我打算缓存 dataframe_1 以便后续引用使用缓存的 d...

回答 1 投票 0

如何使用spark在tkinter上显示mongodb数据

我正在使用pyspark,与mongodb连接,我可以使用show()来显示数据表,但我不知道如何在tkinter上显示它。这是代码: 从 pyspark.sql 导入 SparkSession 火花=

回答 1 投票 0

Pyspark - 重复值直到列发生变化

我有一个具有这种结构的数据框 订单号 电话号码 物品 类型 12345 1 1001 家长 12345 2 1002 孩子 12345 3 1003 孩子 12345 4 1004 孩子 12345 5 1005 家长 12345 6 1006 孩子 我

回答 1 投票 0

返回不同日期的最后更新日期的行

假设这是我的 PySpark 数据框,按 ("ID", "updated_at") 排序: ID 更新时间 股票日期 行号 a1 2024-03-25T20:52:36 2024-03-25 1 a1 2024-03-26T11:23:48 2024-03-26 2...

回答 1 投票 0

如何从 pyspark 数据框中删除所有重复项

在此 Pyspark Dataframe 中,有一些记录在 ID 字段上有重复。 ID 开始时间 1 2020-02-09 1 2021-02-15 2 2022-05-04 3 2023-05-15 我想删除所有记录...

回答 1 投票 0

类型错误:PySpark 中的 Xgboost 无法调用“JavaPackage”对象

我正在尝试使 Scala Xgboost API 可用于我的 PySpark Notebook。并关注此博客: https://towardsdatascience.com/pyspark-and-xgboost-integration-tested-on-the-kaggle-titanic-dataset-

回答 1 投票 0

如何使用 pysaprk 替换基于其他数据帧的数据帧中的值

我的数据块笔记本中有两个数据框。例如数据如下所示: df1: 身份证号码 1 200/300A/200B 2 805/805B/500 df2: id 805 200B 现在我想用 df2 替换 df1 名称...

回答 1 投票 0

从 String 到 Varchar 的红移谱类型转换

当我使用 Glue 爬虫从 S3 扫描数据时,我得到以下架构: {id:整数,值:字符串} 这是因为 Spark 以 String 类型而不是 varchar 类型写回数据。虽然有一个

回答 1 投票 0

在 databricks 上使用 geoscan 时出错

我在 Azure Databricks 上使用了 geoscan 库。但是,当我配置任务时,出现此错误。 `TypeError:'JavaPackage'对象不可调用 --------------------------------------------------------...

回答 1 投票 0

Scala Spark 查询优化

我有两个数据框,每个数据框有 300 列和 1000 行。它们具有相同的列名称。这些值是混合数据类型,如结构/列表/时间戳/字符串/等。我正在尝试比较该专栏

回答 1 投票 0

使用命名字段创建 pyspark 结构数组

我想将一个字符串列表(即列名称)传递到一个转换函数中,该函数会生成一个新列,其中包含一个具有两个字段的结构数组 - “key”和“...

回答 1 投票 0

“spark.jars.packages”在 AWS Glue 和 Spark 中未按预期工作。可以帮忙吗?

我想在 Spark 会话中使用一些 Maven 存储库 JAR 文件,因此我使用“spark.jars.packages”创建会话,它将自动下载 JAR。这没有按预期工作...

回答 1 投票 0

PySpark 将字符串 JSON 数据提取到多行中

我有以下 PySpark DataFrame。我需要提取以字符串形式存储在 DataFrame 中的列中的 JSON 数据,然后根据 PySpark 中提取的数据创建多行。

回答 1 投票 0

Spark 在读取时是否使用 repartition() 来推断 parquet 文件的分区是否持续存在?

我有两个数据集存储为镶木地板文件,其架构如下: 数据集1: ID 第 1 列 列2 1 v1 v3 2 v2 v4 数据集2: ID 第 3 列 第 4 列 1 v5 v7 2 v6 v8 我想使用 pysp 连接两个数据集...

回答 1 投票 0

如何通过本地安装的 pyspark 创建 Delta 表

我正在使用 jupyter/all-spark-notebook 的 docker 映像来运行我的容器,该容器最终通过端口转发为我的 jupyter 笔记本提供动力 从达美进口* 导入pyspark 从 pyspark.sql 导入

回答 1 投票 0

运行 Apache Sedona Spatial Join 到 DF 会引发版本错误?

所以我在这里运行 Apache Sedona 的笔记本。我可以将所有数据加载并打印到 DF。但是一旦我与 RDD 进行空间连接 airports_rdd = 适配器.toSpatialRdd(

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.