pandas 相关问题

Pandas是一个用于数据处理和分析的Python库,例如统计数据,实验科学结果,计量经济学或金融学中常见的数据框架,多维时间序列和横截面数据集。 Pandas是Python中主要的数据科学库之一。

Seaborn 散点图 - 标签数据点[重复]

我有一个使用数据框中数据的 Seaborn 散点图。我想使用与该观察(行)关联的 df 中的其他值向绘图添加数据标签。请看下面 - 是...

回答 1 投票 0

基于另一列的索引更改

考虑 df 的这一列: 人实体ID 0 324141 1 2 425544 3 4 434456 我可以重新索引它,以便当列中有新值时它会发生变化: 人实体ID 0 324141 0 ...

回答 2 投票 0

Pandas 基于多列进行分组和转换

我见过很多类似的问题,但似乎没有一个适合我的情况。我很确定这只是一个 groupby 转换,但我不断收到 KeyError 和轴问题。我正在尝试分组

回答 3 投票 0

pandera 说它没有属性“validate”

我正在尝试验证 Excel 工作表。这是我的架构和验证代码。根据文档,它应该像调用验证函数一样简单,并且它会打印任何 e...

回答 1 投票 0

初学者使用 selenium 和 python 编写从多个网页抓取链接、文本、图像的代码并存储在 Excel 中

这是我写的代码: 从硒导入网络驱动程序 将 pandas 导入为 pd 从 selenium.webdriver.support 导入预期条件作为 EC 从 selenium.webdriver.support.ui 导入

回答 1 投票 0

将 pandas 数据帧转换为单词表的更快/最快的方法

我正在尝试将 pandas 数据框转换为单词表。然而,对于大型数据帧,我当前使用的过程非常慢。这是因为必须一一访问每个单元。该...

回答 1 投票 0

比较日期并返回过滤结果

我有以下代码,将日期列与给定日期进行比较,我希望在满足条件时获得输出,即日期列中的日期在给定日期之后。任何帮助都会是

回答 1 投票 0

Llamaindex 使用 PandasCSVReader 读取多个文件

目前,下面的示例使用 PandasCSVReader 处理一个 CSV 文件。我什至不知道这是否可能,但如果可以,如何将其调整为多个文件? 从 llama_index.core 导入

回答 1 投票 0

Pandas,查找两列之间的差异,每列都有不同的数据类型值

考虑以下输入数据 产品 第 1 列 列2 一 你好 你好 一 18.0 19.52 一 2024-02-12 00:00:00 2024-03-07 00:00:00 二 2024-02-12 00:00:00 2024-02-11 00:00:00 二 在途中 有存货 想要

回答 1 投票 0

使用 difflib 将字符串与数据框中的行进行比较

我有一根绳子 电子邮件 = '[email protected]' 和一个DF df = DataFrame({ ‘id’: [1, 2, 3], ‘email_address’: [‘[email protected]’, ‘[email protected]’, ‘[email protected]’]}) 我想添加一个名为“sc...

回答 2 投票 0

Polars 比较两个数据帧 - 有没有办法在第一次不匹配时立即失败

我正在使用极地测试assert_frame_equal方法来比较两个包含相同列的排序数据帧,下面是我的代码: assert_frame_equal(src_df, tgt_df, check_dtype=False, check_row_order=

回答 1 投票 0

将 pandas 导入为 pd NameError:名称“null”未在 jupyter 笔记本上定义

您好,我目前正在 Udemy 上参加数据分析师训练营课程,我正在使用带有 python 版本 3.9 的 jupyter 笔记本。我目前正在学习如何使用 pandas 库,我将其安装在我的电脑上...

回答 3 投票 0

优化Databricks中Excel文件的读取和格式化功能

我编写了一个小函数来从 CSV 文件读取数据并将输出存储在格式化的 Excel 工作簿中。该代码将在 Spark 群集上运行的 Azure Databricks 笔记本中运行。我该怎么办...

回答 1 投票 0

循环并存储多个路径Pandas

目标:参数化多个路径并使用 pandas 合并 ID 上的所有数据。例如,我有以下多个路径: \用户\文档�301\data01.pqt \用户\文档�302\data02.pqt \用户\文档...

回答 1 投票 0

创建时变数据帧的最有效方法

我有以下数据框: from_year to_year ID 性别 1990 1993 1 女 1987 1992 2 男 2000 2000 3 男 2010 2011 4 女 我愿意

回答 1 投票 0

如何将数据集拆分为 X_train、X_test、y_train、y_test 后合并并保存为 CSV?

如何合并数据集并将其拆分为 CSV X = df.drop(['标签'],axis=1).values y = df.iloc[:, -1].values.reshape(-1,1) y=np.ravel(y) X_train、X_test、y_train、y_test =

回答 1 投票 0

比较时间戳与日期时间

我有一个来自数据帧和日期时间对象的时间戳,我想比较它们以在数据帧中进行选择。我的数据如下: 打印(类型(日期时间.日期时间.now())) 我有一个来自数据帧和日期时间对象的时间戳,我想比较它们以在数据帧中进行选择。我的数据如下: print(type(datetime.datetime.now())) <class 'datetime.datetime'> print(type((df.created_at[0]))) <class 'pandas._libs.tslibs.timestamps.Timestamp'> 如何使用日期时间对象选择该数据框中的特定行?如下: df[df.created > datetime.datetime.now()] 但它返回给我以下错误消息:TypeError: Cannot compare tz-naive and tz-aware datetime-like objects,知道如何解决这个问题吗?谢谢! Timestamp 是一个时区感知对象,而从 datetime.datetime.now() 获得的日期时间对象是时区天真的对象,因为您没有另外指定,因此会出现错误。您应该进行转换,以便它们要么都支持时区,要么都不支持时区。 例如,您可以像这样调用 datetime.datetime.now() 使其具有时区感知能力(将时间戳对象中的时区信息作为参数传递): datetime.datetime.now(df.created_at[0].tzinfo) df[df.created.to_pydatetime() > datetime.datetime.now()] 应该可以工作pandas.Timestamp.to_pydatetime

回答 2 投票 0

根据特定条件向前填充

我有一个数据框,我想根据特定条件转发填充。 当条件为 True 时,我想要向前填充和向后填充。条件为 False 意味着链接

回答 2 投票 0

如何从本地项目csv文件获取数据并存储到docker中的mongodb中

我有一个废弃的Python项目,它将pandas数据帧存储在csv文件中。我设置了 docker run mongo 但无法弄清楚如何将 csv 文件的数据存储在 mongodb 中。我必须复制文件吗...

回答 2 投票 0

基于

我有一个数据框,我想根据特定条件转发填充。 当条件成立时,我想转发填充和回填。条件为假意味着

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.