pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

从 pyspark 中的文本中提取地址

我对描述中的每个令牌都有一些描述和标签。标签指定令牌的类型。我想从描述中提取地址,即:对应于...的所有代币

回答 1 投票 0

使用 pyspark 数据框,嵌套数组的爆炸和存储在单独的行中花费了太多时间

我使用下面的代码片段来分解由嵌套 json 创建的数据帧中的列。查询花费太多时间才能完成。我可以得到一些关于如何改进的建议吗

回答 1 投票 0

如何在同一个glue任务中用处理结果替换数据源

我想处理A中的一些数据,并用处理后的结果替换A。 write() 操作完成后,我可以在任何“地方”做一些事情吗?或者有什么办法可以替代原来的d...

回答 1 投票 0

根据时间戳识别重叠记录并删除 pyspark 中的旧重叠

这是一个pyspark重叠时间段问题: 样本数据 数据 = [ (1、“2024-01-28T05:00:00Z”、“2024-01-28T06:00:00Z”、“1/24/24”), (1、“2024-01-28T05...

回答 1 投票 0

Pyspark - 创建一个 json 列,其键来自另一个 CSV 列

输入数据集如下所示 |编号 |领域 | f1 | f2 | f3 | f4 | | -------- | -------- | -------- | -------- | -------- | -------- | | 1 ...

回答 1 投票 0

莫名其妙的 PySpark SQL 数组索引错误:索引 1 超出长度 1 的范围

我看到一个莫名其妙的数组索引引用错误, 索引 1 超出长度 1 的范围 ...我无法解释,因为我没有看到在我的 AWS 上下文中引用任何相关数组...

回答 1 投票 0

使用 pyspark 在 s3 中准备镶木地板时如何推断架构

使用spark.read.parquet读取s3中保存的parquet文件时,它会自动更改一些数据类型。例如字符串到整数。 如何禁用此功能并保留所有原始数据类型

回答 1 投票 0

如何从pyspark中的xml中读取嵌套元素?

如何从pyspark中的xml中读取嵌套元素?

回答 1 投票 0

读取 JSON 文件并获取正确的数据类型:InferShema 给我带来了问题,并且将其设置为 false 不是一个选项

我正在构建一个数据存储库,并从源应用程序的 API 中以 JSON 形式获取数据。这些 JSON 非常复杂,它们的结构可能会因调用而变化,因为我只得到 ch...

回答 1 投票 0

如何转换所发布问题的数据集?

我想寻求一些帮助来解决我现在面临的问题。给定数据集: df = Spark.createDataFrame([ ('2024-01-01', 1, 23), ('2024-01-02', 1, 43), ('2024-01-03'...

回答 1 投票 0

如何使用spark connect与Kubernetes集群

我目前正在尝试在 kubernetes 上设置 Spark Connect。我只是想知道是否有人这样做过。我正在尝试弄清楚是否需要在 kubernetes 上设置一个独立的 Spark 集群......

回答 1 投票 0

Spark 数据框中值为“-”的日期列

我在数据块中有一个日期列,其值“-”代表 1 条记录。我无法将其过滤掉或选择此行。我如何在 where 子句中使用这个值“-”? 我努力了

回答 1 投票 0

如何使用 Python 在 Linux 中打开时创建具有所需密码的 Excel xlsx 文件

我有一个数据框。 我需要将数据帧写入 Excel 文件,打开它时需要密码。 在Linux环境下。 我怎样才能做到这一点? 我尝试了一些像 msoffcrypto 这样的软件包,但它只是可以解密......

回答 1 投票 0

使用 Dataframe 时出现 SparkConnectGrpcException

我正在使用 Spark Connect 连接远程 Spark 集群并执行此代码块。看来我可能错过了一些东西。这是 IPython 笔记本。我正在使用 PySpark 并运行

回答 1 投票 0

如何在 PySpark 中替换重音字符?

我在数据框中有一个字符串列,其中的值带有重音符号,例如 “墨西哥”、“阿尔巴尼亚”、“日本” 如何用重音符号替换字母以获得此效果: “墨西哥”、“阿尔巴尼亚”、“日本” 我尝试了很多解决方案...

回答 3 投票 0

Python 工作线程意外退出(崩溃)

在命令提示符下运行 rdd = sc.parallelize([1,2,3]) 后,我在运行 rdd.first() 时收到此错误。 py4j.protocol.Py4JJavaError:调用 z:org.apache.spark.api 时发生错误。

回答 1 投票 0

如何删除 Spark 中的倾斜分区?

我构建了一个具有 17-20 个连接的 Spark SQL 查询。我的驱动表大小约为 40GiB,其他 2-3 个表的数据为 1-2 TB,其他表的数据约为 3-4GiB。我尝试了这份工作,没有 16...

回答 1 投票 0

通过机器学习避免 PySpark 中的 for 循环

我在 PySpark 中有一个 for 循环,可以迭代超市的不同产品,但需要很长时间。我知道 for 循环在 Spark 中效率很低,但我不知道该怎么做......

回答 1 投票 0

Databricks / pyspark 在 0.5 到 1 秒内从笔记本写入表?

尝试模仿 Databricks 中的实时数据流。 创建了一个包含 4 列(字符串和时间戳类型)、大约 10-15 行的小型目录/表。 在笔记本中将 DataFrame 写入数据l...

回答 1 投票 0

PySpark 和 Databricks addFile 和 SparkFiles.get 异常 java.io.FileNotFoundException

我正在努力: 将 SSL 证书从 S3 加载到集群。 addFile 以便所有节点都能看到该文件。 使用 JDBC 创建到 IBM db2 的连接 URL。 步骤 1 和步骤 2 运行成功。我可以...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.