pandas 相关问题

Pandas是一个用于数据处理和分析的Python库,例如统计数据,实验科学结果,计量经济学或金融学中常见的数据框架,多维时间序列和横截面数据集。 Pandas是Python中主要的数据科学库之一。

根据条件删除重复的熊猫

所以我尝试使用以下逻辑从数据框中删除重复项: df = pd.DataFrame({'id_SAP_transaction': [1, 2, 2, 3, 3], 'checkout_security': ['2023-12-15', pd.NaT, '2023-12-01', pd.NaT, ...

回答 1 投票 0

放置在树根中的变量的信息增益是多少?

我正在尝试从 Stepic 解决这个问题: 下载包含三个变量的数据集:sex、exang、num。想象一下 我们想使用决策树来分类患者是否 有心

回答 2 投票 0

Python 将 CSV 数据输出为格式化文本文件

我有一个 XLSX 文件,我正在使用 python 将其转换为 CSV,以便我可以使用 pandas 进行操作,然后我想将数据从 CSV 文件导出到格式化的文本文档中。 xlsx...

回答 1 投票 0

如何在 Pandas 中将 loc 与管道一起使用?

考虑以下示例 将 numpy 导入为 np 将 pandas 导入为 pd 数据 = { 'Group': ['A', 'B', 'C', 'D']*3, # 重复组来填充 DataFrame '时间戳': pd.date_range(start='...

回答 1 投票 0

python 百分比级别的 ID 计数

我有如下表,它存储在 DataFrame 中。我想添加 容差级别 = [0, 1, 5, 10, 20, 30, 50, 100, 200, 300, 500, 700] 和 获取 A、B、C 列的 ID 计数...

回答 1 投票 0

如何将Oracle HCM HDL(.dat)文件读入pandas?

我有一个 Oracle HCM HDL(.dat) 文件,其中包含以特定格式构建的数据,我想将其读入 pandas,对某些列上的值执行匿名化,然后保存每一秒...

回答 1 投票 0

多索引数据透视表 Pandas

我正在尝试使用 pandas 使用下面来自一个更大的表的示例数据集来复制数据透视表: 年份类型 状态 已付余额计数 2000 银行 1 活跃 15 21 1 2001 年...

回答 1 投票 0

从字典创建熊猫系列

我正在阅读《Python 数据科学手册》来了解 Pandas 库。这本书说,并且还展示了一个示例,当从字典创建系列时,索引默认为...

回答 1 投票 0

在Python中使用关键列查找绝对差异

我已经将两个不同的数据集合并到一个 DataFrame 中,如下所示。 日期 ID A_1 A2 B_1 B_2 C_1 C_2 2024年1月1日 1 1 3 4 9 8 9 2024年1月1日 3 9 8 7 4 3 2 2024年1月1日 6 10 20 30 4...

回答 1 投票 0

在操作列时如何处理 pandas 数据框的“除以零”? [重复]

我正在处理数百个熊猫数据框。一个典型的数据框如下: 将 pandas 导入为 pd 将 numpy 导入为 np 数据 = '文件名.csv' df = pd.DataFrame(数据) df 一二

回答 4 投票 0

提取 CSV 文件的特定行,使用 pandas 按时间戳进行索引

我有一个csv文件,打印时如下所示 让我困惑的是,有“时间”而不是索引。当我尝试访问密钥文件['time']时,我当然得到了一个错误......我在做什么......

回答 1 投票 0

如何从多索引数据框中删除行

我有像这样的pandas多索引数据框。我需要删除 bnds 等于 1.0 的行。 我尝试按照文档执行 df_f.drop('1.0', level=bnds, axis=0, inplace=True) ,但是得到...

回答 1 投票 0

Pandas Dataframe 按行显示精度

我正在使用 pandas 将结果输出到 LaTeX。我目前设置精度(要打印的小数位数)如下: 将 pandas 导入为 pd df = pd.DataFrame({'a':[1234.56, 0.01, 1234.56],'b':...

回答 2 投票 0

如何使用 Python 创建间隔,以便根据特定标准获得每组(间隔)最相似的大小?

请问您能为以下任务提出解决方案吗? 假设我有一个像这样的数据框: 数据 = { “城镇”:[“F”、“A”、“N”、“O”、“B&...

回答 1 投票 0

Pandas 在组内滚动总和

我正在尝试计算每个组内的滚动总和或任何其他统计数据(例如平均值)。下面我给出一个例子,窗口为2,统计量为sum。 df = pd.DataFrame.from_dic...

回答 1 投票 0

使用 pandas read_parquet 对分区列进行过滤的多个条件

如果我有分区数据,并且我要使用 pd.read_parquet 中的filters参数进行过滤,我该如何实现这一点?例如: 将 pandas 导入为 pd 数据 = { “ID”:[1,2,3], ...

回答 1 投票 0

来自嵌套字典列表的 pandas 多索引 DataFrame

我有一个嵌套字典列表 lst = [{'a':{'aa':1, 'ab':2}, 'b':{'ba':3, 'bb':4}}] * 2 我正在努力获取带有多索引列的 pandas DataFrame。 目前我正在做: pd.concat([ ...

回答 1 投票 0

如何从数据字典和索引级别字典构建多索引数据帧

我正在努力创建这个数据框 甲乙 坐标 1 2 1 2 6 3 c 2 7 2 从这两个词典看来就足够了: 数据 = {'A': [2,6,7], 'B': [1,3,2]} ...

回答 1 投票 0

如何获得所有分组中存在的唯一值组合

我想知道产品现有的 uom 值组合是什么。 给定 df = pd.DataFrame([{'prod_id':3,'uom':'PK'},{'prod_id':3,'uom':'PQT'},{'prod_id':4,'uom': 'PK'},{'prod_id':5...

回答 1 投票 0

依赖于计算groupby对象中两列单元格之间差异的列

我需要一些技巧来进行计算。 我有一个如下所示的 DataFrame: text_id 用户日期 important_words 约翰一书 2018-01-01 {猫、狗、小狗} ...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.