pyspark-pandas 相关问题


将 Pandas 函数转换为 Pyspark 函数

我有以下代码需要转换为 Pyspark。 我知道如何在 Pyspark 中创建数据帧 df_stack_exchange,但不知道如何创建等效的 allocate_boxes 函数...


使用 pyspark pandas 的自定义聚合

我有一个 pyspark pandas 数据框。我想使用一些预定义函数执行自定义聚合,并为了简单起见使用 numpy.nanmean 我收到以下错误“aggs 必须是一个字典


col("name") 与直接在 pyspark pandas udf 函数列名称中使用名称之间有区别吗?

当将输入传递到pyspark中的pandas_udf时,您使用col(“name”),有时您直接使用“name”。有区别吗?另外,有人可以指出我确切的


我在安装 pyspark 时遇到错误,如何修复它?

我想安装并练习pyspark。但是在安装和进入 pyspark-shell 过程中,出现以下错误。 C:\Windows\System32>spark-shell 将默认日志级别设置为“WARN”。 至


Py4JJavaError:调用 z:org.apache.spark.api.python.PythonRDD.collectAndServe 时发生错误。在执行简单的 .map() 时

我是 pySpark 的新手,尝试了一个简单的 pySpark 代码,例如读取文件并使用 .map(),但在执行时出现 Py4JJavaError 从 pyspark 导入 SparkContext、SparkConf 配置 = SparkCo...


将 pyspark 数据帧转换为代码/语法

假设我在 Databricks 中有以下 pyspark 数据框: 一些其他列 价格_历史记录 测试1 [{“日期”:“2021-03-21T01:20:33Z”,“price_tag”:“N”,...


pyspark 检查点在本地计算机上失败

我刚刚开始在本地计算机上使用独立版本学习 pyspark。我无法让检查站工作。我把剧本归结为这个...... Spark = SparkSession.builder.appName("PyTest").master("


pyspark中的累积减法

我想在pyspark中实现累加减法。 我有这样的数据集 委员会 科伊特姆 1000 1110 100 1110 50 1110 30 1110 20 1110 2000年 1210 10 1210 200 1210 -100 1210 20 1210 我的德...


Pyspark - 按列表循环数据帧列

pyspark 新手。只是尝试简单地循环变量列表中存在的列。这是我尝试过的,但不起作用。 列列表 = ['colA','colB','colC'] 对于 df 中的 col: 如果 col 在


如何在pyspark中关闭科学计数法?

作为一些聚合的结果,我想出了以下 Sparkdataframe: ----------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----...


PySpark 3.5 中的字符串到日期格式

日期 '2020/12/01' 20201227 '2020/12/03' 无效的 '2020-12-13' 在日期列中,有这些类型的数据,我需要更改yyyy-MM-dd格式 我们如何在 Pyspark 中实现这一目标。 基础...


无法在 Pyspark 中解析带有可选日期部分的日期

我有一个 Pyspark 数据框,其中的字符串日期可能是 yyyyMM (例如 200802)或 yyyyMMdd (例如 20080917)。我正在尝试将这些解析为日期。我目前正在考虑的功能是


Pyspark - 转换字符串数组以进行映射,然后映射到可能使用 pyspark 而不是 UDF 或其他性能密集型转换的列

我正在处理一些具有一些键值标头和有效负载的数据。我已成功将标头解析为以下数组: +------------------------------------------------ -----------+-----...


如何从 python pandas 数据帧在雪花中创建表(不使用 sqlalchemy)

有没有一种方法可以仅使用 Snowflake 连接器和 pandas 库从 python 中的 pandas 数据帧创建雪花表?这里的主要目标是只获取 pandas 数据框并使用 ...


Pandas 数据框使用特定列的 interpolate() 分区

我有以下 Pandas 数据框(称为 df)。 +--------+--------+------+--------+ |人 |动物 |年份|数量 | +--------+--------+------+--------+ |约翰 |狗 | 2000 | 2000 2 | |...


Pyspark - 将字符串转换为数组

我有一个数据框,它有字符串值,我有一个数组。 alg_mappings = { ('Full Cover', 40): [['base,permissed_usage'],['si_mv'],['suburb']]# 根据需要添加更多值 } 默认_va...


有没有办法在 pandas 中使用 usecols 读取必填和可选列?

这是在读取 .csv 文件的情况下。我想要一组 pandas 将读取和解析的“必需”列以及一组 pandas 将提取的“可选”列...


pyspark 中没有发生小数点后 2 舍入

我正在databricks中进行以下计算,并四舍五入到小数点后两位。 结果 = ( 圆形的( 合并( 当(col('col')!= 0,col('col')), 当(col('col')!...


pandas 替换空字符串

替换列中的字符串时,会在每个字符周围添加替换字符串。 将 pandas 导入为 pd,将 numpy 导入为 np 将 pandas 导入为 pd,将 numpy 导入为 np data1 = [['符号','上下文'], ...


如何在 pandas 中的特定列索引处插入列?

我可以在 pandas 的特定列索引处插入列吗? 将 pandas 导入为 pd df = pd.DataFrame({'l':['a','b','c','d'], 'v':[1,2,1,2]}) df['n'] = 0 这会将第 n 列作为...的最后一列


无法在 vscode jupyter 扩展中导入 pandas

正如我提到的,由于某种原因,vscode 中的 jupyter 笔记本扩展不允许我导入 pandas。 当我在终端中运行 pip install pandas 时, 终端表演 然而, 在 vscode 中, , 我现在...


使用 python pandas 从 Excel 文件中删除无关数据

我收到了一个 Excel 电子表格,其中包含需要使用 python pandas 进行分析的数据。但是,数据的格式无法直接转换为 pandas 数据帧。传播...


如何在pandas中获取常见的时间间隔

我使用的是pandas版本1.0.5 将 pandas 导入为 pd 数据1 = [ ['2023-12-27','2023-12-27 00:00:00','2023-12-27 02:14:00'], ['2023-12-27','2023-12-27 03:16:00','2023-12-27 04:19:00'], ['20...


Pandas - 使用可变长度滚动窗口聚合值

以下数据框用作输入: 将 pandas 导入为 pd 将 numpy 导入为 np json_string = '{"日期时间":{"0":1528955662000,"1":1528959255000,"2":


pandas 系列替换为回填替代品

pandas.Series.replace 的文档包含一个示例: >> 将 pandas 导入为 pd >> s = pd.Series([1, 2, 3, 4, 5]) >> s.replace([1, 2], method='bfill') 0 3 1 3 2 3 ...


从 Postgres 读取数据并写入 Google BigQuery 时架构不匹配

我创建了一个 pyspark 脚本来通过 Dataproc 将数据从 PG DB 迁移到 Google Bigquery,但是在 dataproc 上运行日志时遇到错误 引起的:java.lang.NullPointerExcepti...


是否可以广播字典并将其用作 pyspark 中的查找?

我正在azure databricks中运行以下代码。 使用 erp_bu 创建查找字典,erp_bu 是具有两列“erp_code”和“bu”的行对象列表 广播查找字典


将 pandas 数据帧转换为 Spark 数据帧时收到错误

由于spark没有开箱即用的支持读取excel文件,所以我首先将excel文件读入pandas数据帧,然后尝试将pandas数据帧转换为spark数据帧,但我得到了...


如何读取包含 Excel 公式的 Excel 文件以通过 PySpark lib com.crealytics.spark.excel 计算值

我有一个 Excel 文件,例如: 它使用 Excel 公式计算每个值的列 我尝试使用以下方法读取该文件: input_MonthGroup_df = Spark.read.format("com.crealytics.spark.ex...


Pandas:查找 Excel 文件中的工作表列表

新版本的Pandas使用以下接口加载Excel文件: read_excel('path_to_file.xls', 'Sheet1', index_col=无, na_values=['NA']) 但如果我不知道哪些床单怎么办


多重处理似乎不适用于 df.apply()

我有一个 pandas 数据框,我想在其上对几列应用行操作。返回我需要的 pandas 系列的函数如下所示: def get_info_previous_flight(行,


pandas 重新索引多重索引无法正常工作

我有一个 pandas(版本 1.0.5)DataFrame,具有两个级别的 MultiIndex,例如喜欢: mi = pd.MultiIndex.from_product((('a', 'c'), (5, 12))) np.随机.种子(123) df = pd.DataFrame(data=np.random.ran...


如何在 PySpark 中按条件聚合相邻行进行分组

我在 Spark 数据框中进行条件分组时遇到问题 下面是完整的例子 我有一个数据框,已按用户和时间排序 活动地点用户 0 观看


如何在 AWS EMR 上配置/安装 JDBC SQLServerDriver for Spark 3.5?

我正在开发一个 PySpark ETL 管道应用程序,以便最终部署在 AWS EMR 上。数据从 Microsoft SQL Server 数据库中提取或提取。当我在本地运行代码时,我使用本地 mas...


如何在 Step Function 中包含 AWS Glue 爬网程序

这是我的要求: 我在 AWS Glue 中有一个爬虫和一个 pyspark 作业。我必须使用步骤功能设置工作流程。 问题: 如何将 Crawler 添加为第一个状态。参数是什么...


两列之和应根据 Pandas 中的结果得出两列之一

我有这个数据集 将 pandas 导入为 pd 数据 = pd.DataFrame({ ‘ID’: [1,2,3,4,5,2,3,1], '借方': [0, 5000, 0, 5000, 3000, 0, 2000, 1000], “信用”:[-100, 0, -700, 0, 0, -8000, ...


获取每个组值的列表列表,而无需在 pandas 中旋转表格

我有以下数据框: 将 numpy 导入为 np 将 pandas 导入为 pd 数据 = np.random.uniform(0, 1, (4, 5)) df = pd.DataFrame(数据, 列 = [2010,2011,2012,2013,2014]) df = df.stack().reset_ind...


模块“pandas”没有属性“read_csv

将 pandas 导入为 pd df = pd.read_csv('FBI-CRIME11.csv') 打印(df.head()) 运行这个简单的代码会出现错误: 回溯(最近一次调用最后一次): 文件“C:/Users/Dita/Desktop/python/les...


有没有办法将图像的内容(存储在spark Dataframe中)与pyspark并行写入文件?

我有一个 Spark Dataframe,其中每一行都包含两个项目:文件名(带有扩展名,例如 .jpg)和文件的内容(以字节为单位)。 我想写一个过程...


pandas ta ema 计算不准确

当使用Pandas TA计算EMA时,我发现EMA与交易视图中的EMA不匹配。 考虑 EMA 为 200 的任何股票。接下来,以任意金额计算最后一个 EMA...


在 PySpark 中执行不带 OrderBy 的窗口函数

我有一个数据框,其中数据的顺序已经正确。 现在我需要在数据帧上执行诸如超前/滞后之类的窗口函数,但是根据 Spark,orderBy 是强制性的,它不允许我喜欢 lea...


如何获得 Pandas 系列的 NaN 索引范围?

我在 Pandas 中有一个数据框,其中索引是日期,列是代码,如下所示: 我需要识别具有 NaN 值的列,我像这样实现了这部分:


尝试在 pyspark 中构建代码时需要帮助,其中需要转置多个列,如下场景

我有一个以下格式的数据集。 样本数据集: 现在我需要转置(测试,Opt_marks,TotalMarks)以下格式的信息。 设计输出: 我在下面尝试过,但没有得到


为什么我使用 pandas 读取 csv 文件的对象是 TextFileReader 对象

我使用 pandas 读取了 csv 文件: data_raw = pd.read_csv(文件名, chunksize=chunksize) 打印(data_raw['id']) 然后,它报告TypeError: 回溯(最近一次调用最后一次): 文件“”,...


Excel条件格式规则Openpyxl或Pandas

我正在尝试使用 openpyxl 或 Pandas 为单元格创建条件格式规则。 我要写入Excel文件的规则是:如果单元格的值小于1,则将其格式化为% a...


Pandas - Lambda 内部应用以返回一行

我原本期望在 Pandas DataFrame 中的 apply 中使用 lambda 函数时获得整行,但看起来我得到了一个“单个元素”。 看那段代码: # 数据样本 评论_2 = pd。


使用 Python Pandas 从 CSV 文件中删除重复记录

我想使用 Python Pandas 从 csv 文件中删除重复记录 CSV 包含具有三个属性scale、minzoom、maxzoom 的记录。我想用 minzoo 得到一个结果数据框...


扩大 pandas 数据框中值之间的距离

如何扩大pandas数据框中值之间的距离? A 1 3 2 5 3 6 5 5 6 9 我想将相邻元素之间的距离增加x倍,例如两倍。 预期输出: ...


高效将numpy数组数组转换为pandas系列数组

如何有效地将数组的 numpy 数组转换为数组列表?最终,我想让 pandas 系列数组成为一个列,一个数据框。如果有更好的方法...


将 Fastq 文件直接读取到 Pandas Dataframe 中

我正在尝试将 Fastq 文件直接读入 pandas 数据帧,类似于下面的链接: 将 FASTQ 文件读入 Spark 数据帧 我到处搜索,但找不到可行的选择。 电流...


© www.soinside.com 2019 - 2024. All rights reserved.