pyspark-pandas 相关问题

将 Pandas 函数转换为 Pyspark 函数

我有以下代码需要转换为 Pyspark。我知道如何在 Pyspark 中创建数据帧 df_stack_exchange，但不知道如何创建等效的 allocate_boxes 函数...

使用 pyspark pandas 的自定义聚合

我有一个 pyspark pandas 数据框。我想使用一些预定义函数执行自定义聚合，并为了简单起见使用 numpy.nanmean 我收到以下错误“aggs 必须是一个字典

col("name") 与直接在 pyspark pandas udf 函数列名称中使用名称之间有区别吗？

当将输入传递到pyspark中的pandas_udf时，您使用col(“name”)，有时您直接使用“name”。有区别吗？另外，有人可以指出我确切的

我在安装 pyspark 时遇到错误，如何修复它？

我想安装并练习pyspark。但是在安装和进入 pyspark-shell 过程中，出现以下错误。 C:\Windows\System32>spark-shell 将默认日志级别设置为“WARN”。至

Py4JJavaError：调用 z:org.apache.spark.api.python.PythonRDD.collectAndServe 时发生错误。在执行简单的 .map() 时

我是 pySpark 的新手，尝试了一个简单的 pySpark 代码，例如读取文件并使用 .map()，但在执行时出现 Py4JJavaError 从 pyspark 导入 SparkContext、SparkConf 配置 = SparkCo...

将 pyspark 数据帧转换为代码/语法

假设我在 Databricks 中有以下 pyspark 数据框：一些其他列价格_历史记录测试1 [{“日期”：“2021-03-21T01：20：33Z”，“price_tag”：“N”，...

pyspark 检查点在本地计算机上失败

我刚刚开始在本地计算机上使用独立版本学习 pyspark。我无法让检查站工作。我把剧本归结为这个...... Spark = SparkSession.builder.appName("PyTest").master("

pyspark中的累积减法

我想在pyspark中实现累加减法。我有这样的数据集委员会科伊特姆 1000 1110 100 1110 50 1110 30 1110 20 1110 2000年 1210 10 1210 200 1210 -100 1210 20 1210 我的德...

Pyspark - 按列表循环数据帧列

pyspark 新手。只是尝试简单地循环变量列表中存在的列。这是我尝试过的，但不起作用。列列表 = ['colA','colB','colC'] 对于 df 中的 col：如果 col 在

如何在pyspark中关闭科学计数法？

作为一些聚合的结果，我想出了以下 Sparkdataframe： ----------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----...

PySpark 3.5 中的字符串到日期格式

日期 '2020/12/01' 20201227 '2020/12/03' 无效的 '2020-12-13' 在日期列中，有这些类型的数据，我需要更改yyyy-MM-dd格式我们如何在 Pyspark 中实现这一目标。基础...

无法在 Pyspark 中解析带有可选日期部分的日期

我有一个 Pyspark 数据框，其中的字符串日期可能是 yyyyMM （例如 200802）或 yyyyMMdd （例如 20080917）。我正在尝试将这些解析为日期。我目前正在考虑的功能是

Pyspark - 转换字符串数组以进行映射，然后映射到可能使用 pyspark 而不是 UDF 或其他性能密集型转换的列

我正在处理一些具有一些键值标头和有效负载的数据。我已成功将标头解析为以下数组： +------------------------------------------------ -----------+-----...

如何从 python pandas 数据帧在雪花中创建表（不使用 sqlalchemy）

有没有一种方法可以仅使用 Snowflake 连接器和 pandas 库从 python 中的 pandas 数据帧创建雪花表？这里的主要目标是只获取 pandas 数据框并使用 ...

Pandas 数据框使用特定列的 interpolate() 分区

我有以下 Pandas 数据框（称为 df）。 +--------+--------+------+--------+ |人 |动物 |年份|数量 | +--------+--------+------+--------+ |约翰 |狗 | 2000 | 2000 2 | |...

Pyspark - 将字符串转换为数组

我有一个数据框，它有字符串值，我有一个数组。 alg_mappings = { ('Full Cover', 40): [['base,permissed_usage'],['si_mv'],['suburb']]# 根据需要添加更多值 } 默认_va...

有没有办法在 pandas 中使用 usecols 读取必填和可选列？

这是在读取 .csv 文件的情况下。我想要一组 pandas 将读取和解析的“必需”列以及一组 pandas 将提取的“可选”列...

pyspark 中没有发生小数点后 2 舍入

我正在databricks中进行以下计算，并四舍五入到小数点后两位。结果 = ( 圆形的（合并（当（col（'col'）！= 0，col（'col'）），当（col（'col'）！...

pandas 替换空字符串

替换列中的字符串时，会在每个字符周围添加替换字符串。将 pandas 导入为 pd，将 numpy 导入为 np 将 pandas 导入为 pd，将 numpy 导入为 np data1 = [['符号','上下文'], ...

如何在 pandas 中的特定列索引处插入列？

我可以在 pandas 的特定列索引处插入列吗？将 pandas 导入为 pd df = pd.DataFrame({'l':['a','b','c','d'], 'v':[1,2,1,2]}) df['n'] = 0 这会将第 n 列作为...的最后一列

无法在 vscode jupyter 扩展中导入 pandas

正如我提到的，由于某种原因，vscode 中的 jupyter 笔记本扩展不允许我导入 pandas。当我在终端中运行 pip install pandas 时，终端表演然而，在 vscode 中， , 我现在...

使用 python pandas 从 Excel 文件中删除无关数据

我收到了一个 Excel 电子表格，其中包含需要使用 python pandas 进行分析的数据。但是，数据的格式无法直接转换为 pandas 数据帧。传播...

如何在pandas中获取常见的时间间隔

我使用的是pandas版本1.0.5 将 pandas 导入为 pd 数据1 = [ ['2023-12-27','2023-12-27 00:00:00','2023-12-27 02:14:00'], ['2023-12-27','2023-12-27 03:16:00','2023-12-27 04:19:00'], ['20...

Pandas - 使用可变长度滚动窗口聚合值

以下数据框用作输入：将 pandas 导入为 pd 将 numpy 导入为 np json_string = '{"日期时间":{"0":1528955662000,"1":1528959255000,"2":

pandas 系列替换为回填替代品

pandas.Series.replace 的文档包含一个示例： >> 将 pandas 导入为 pd >> s = pd.Series([1, 2, 3, 4, 5]) >> s.replace([1, 2], method='bfill') 0 3 1 3 2 3 ...

从 Postgres 读取数据并写入 Google BigQuery 时架构不匹配

我创建了一个 pyspark 脚本来通过 Dataproc 将数据从 PG DB 迁移到 Google Bigquery，但是在 dataproc 上运行日志时遇到错误引起的：java.lang.NullPointerExcepti...

是否可以广播字典并将其用作 pyspark 中的查找？

我正在azure databricks中运行以下代码。使用 erp_bu 创建查找字典，erp_bu 是具有两列“erp_code”和“bu”的行对象列表广播查找字典

将 pandas 数据帧转换为 Spark 数据帧时收到错误

由于spark没有开箱即用的支持读取excel文件，所以我首先将excel文件读入pandas数据帧，然后尝试将pandas数据帧转换为spark数据帧，但我得到了...

如何读取包含 Excel 公式的 Excel 文件以通过 PySpark lib com.crealytics.spark.excel 计算值

我有一个 Excel 文件，例如：它使用 Excel 公式计算每个值的列我尝试使用以下方法读取该文件： input_MonthGroup_df = Spark.read.format("com.crealytics.spark.ex...

Pandas：查找 Excel 文件中的工作表列表

新版本的Pandas使用以下接口加载Excel文件： read_excel('path_to_file.xls', 'Sheet1', index_col=无, na_values=['NA']) 但如果我不知道哪些床单怎么办

多重处理似乎不适用于 df.apply()

我有一个 pandas 数据框，我想在其上对几列应用行操作。返回我需要的 pandas 系列的函数如下所示： def get_info_previous_flight(行,

pandas 重新索引多重索引无法正常工作

我有一个 pandas（版本 1.0.5）DataFrame，具有两个级别的 MultiIndex，例如喜欢： mi = pd.MultiIndex.from_product((('a', 'c'), (5, 12))) np.随机.种子(123) df = pd.DataFrame(data=np.random.ran...

如何在 PySpark 中按条件聚合相邻行进行分组

我在 Spark 数据框中进行条件分组时遇到问题下面是完整的例子我有一个数据框，已按用户和时间排序活动地点用户 0 观看

如何在 AWS EMR 上配置/安装 JDBC SQLServerDriver for Spark 3.5？

我正在开发一个 PySpark ETL 管道应用程序，以便最终部署在 AWS EMR 上。数据从 Microsoft SQL Server 数据库中提取或提取。当我在本地运行代码时，我使用本地 mas...

如何在 Step Function 中包含 AWS Glue 爬网程序

这是我的要求：我在 AWS Glue 中有一个爬虫和一个 pyspark 作业。我必须使用步骤功能设置工作流程。问题：如何将 Crawler 添加为第一个状态。参数是什么...

两列之和应根据 Pandas 中的结果得出两列之一

我有这个数据集将 pandas 导入为 pd 数据 = pd.DataFrame({ ‘ID’: [1,2,3,4,5,2,3,1], '借方': [0, 5000, 0, 5000, 3000, 0, 2000, 1000], “信用”：[-100, 0, -700, 0, 0, -8000, ...

获取每个组值的列表列表，而无需在 pandas 中旋转表格

我有以下数据框：将 numpy 导入为 np 将 pandas 导入为 pd 数据 = np.random.uniform(0, 1, (4, 5)) df = pd.DataFrame(数据, 列 = [2010,2011,2012,2013,2014]) df = df.stack().reset_ind...

模块“pandas”没有属性“read_csv

将 pandas 导入为 pd df = pd.read_csv('FBI-CRIME11.csv') 打印（df.head（））运行这个简单的代码会出现错误：回溯（最近一次调用最后一次）：文件“C:/Users/Dita/Desktop/python/les...

有没有办法将图像的内容（存储在spark Dataframe中）与pyspark并行写入文件？

我有一个 Spark Dataframe，其中每一行都包含两个项目：文件名（带有扩展名，例如 .jpg）和文件的内容（以字节为单位）。我想写一个过程...

pandas ta ema 计算不准确

当使用Pandas TA计算EMA时，我发现EMA与交易视图中的EMA不匹配。考虑 EMA 为 200 的任何股票。接下来，以任意金额计算最后一个 EMA...

在 PySpark 中执行不带 OrderBy 的窗口函数

我有一个数据框，其中数据的顺序已经正确。现在我需要在数据帧上执行诸如超前/滞后之类的窗口函数，但是根据 Spark，orderBy 是强制性的，它不允许我喜欢 lea...

如何获得 Pandas 系列的 NaN 索引范围？

我在 Pandas 中有一个数据框，其中索引是日期，列是代码，如下所示：我需要识别具有 NaN 值的列，我像这样实现了这部分：

尝试在 pyspark 中构建代码时需要帮助，其中需要转置多个列，如下场景

我有一个以下格式的数据集。样本数据集：现在我需要转置（测试，Opt_marks，TotalMarks）以下格式的信息。设计输出：我在下面尝试过，但没有得到

为什么我使用 pandas 读取 csv 文件的对象是 TextFileReader 对象

我使用 pandas 读取了 csv 文件： data_raw = pd.read_csv(文件名, chunksize=chunksize) 打印（data_raw['id']）然后，它报告TypeError：回溯（最近一次调用最后一次）：文件“”，...

Excel条件格式规则Openpyxl或Pandas

我正在尝试使用 openpyxl 或 Pandas 为单元格创建条件格式规则。我要写入Excel文件的规则是：如果单元格的值小于1，则将其格式化为% a...

Pandas - Lambda 内部应用以返回一行

我原本期望在 Pandas DataFrame 中的 apply 中使用 lambda 函数时获得整行，但看起来我得到了一个“单个元素”。看那段代码： # 数据样本评论_2 = pd。

使用 Python Pandas 从 CSV 文件中删除重复记录

我想使用 Python Pandas 从 csv 文件中删除重复记录 CSV 包含具有三个属性scale、minzoom、maxzoom 的记录。我想用 minzoo 得到一个结果数据框...

扩大 pandas 数据框中值之间的距离

如何扩大pandas数据框中值之间的距离？ A 1 3 2 5 3 6 5 5 6 9 我想将相邻元素之间的距离增加x倍，例如两倍。预期输出： ...

高效将numpy数组数组转换为pandas系列数组

如何有效地将数组的 numpy 数组转换为数组列表？最终，我想让 pandas 系列数组成为一个列，一个数据框。如果有更好的方法...

将 Fastq 文件直接读取到 Pandas Dataframe 中

我正在尝试将 Fastq 文件直接读入 pandas 数据帧，类似于下面的链接：将 FASTQ 文件读入 Spark 数据帧我到处搜索，但找不到可行的选择。电流...

pyspark-pandas 相关问题

最新问题