熊猫:了解操作何时影响原始数据帧

问题描述 投票:32回答:3

我喜欢熊猫,并且已经使用它多年并且非常自信我能够很好地处理如何对数据帧进行子集并适当地处理视图与副本(尽管我使用了很多断言来确定)。我也知道有很多关于SettingWithCopyWarning的问题,例如How to deal with SettingWithCopyWarning in Pandas?和一些最近的指南,当它发生时缠绕你的头,例如Understanding SettingWithCopyWarning in pandas

但是我也知道像this answer这样引用的具体内容不再出现在最近的文档中(0.22.0),并且多年来许多事情已经被弃用(导致一些不合适的旧的SO答案),而且事情就是continuing to change

最近,在教大熊猫完成新手的基本常规Python知识,如避免链式索引(以及使用.iloc / .loc)之后,我仍然努力提供一般的经验法则,以了解何时注意SettingWithCopyWarning的重要性(例如,忽略它是安全的)。

我个人发现,根据一些规则(例如切片或布尔运算)对数据帧进行子集化的特定模式,然后修改该子集,与原始数据帧无关,是比文档建议的更常见的操作。在这种情况下,我们希望修改副本而不是原始副本,并且警告对新手来说是混乱/可怕的。

我知道提前知道视图与副本的返回并不是一件容易的事,例如 What rules does Pandas use to generate a view vs a copy? Checking whether data frame is copy or view in Pandas

因此,我正在寻找一个更普遍(初学者友好)问题的答案:何时对子集化数据帧执行操作会影响创建它的原始数据帧,以及它们何时独立?

我已经在下面创建了一些我认为合理的案例,但我不确定是否存在“陷阱”我是否缺失或是否有更简单的方法来思考/检查这一点。我希望有人可以证实我对以下用例的直觉是正确的,因为它与我上面的问题有关。

import pandas as pd
df1 = pd.DataFrame({'A':[2,4,6,8,10],'B':[1,3,5,7,9],'C':[10,20,30,40,50]})

1)警告:没有 原来改变了:没有

# df1 will be unaffected because we use .copy() method explicitly 
df2 = df1.copy()
#
# Reference: docs
df2.iloc[0,1] = 100

2)警告:是(我真的不明白为什么) 原来改变了:没有

# df1 will be unaffected because .query() always returns a copy
#
# Reference:
# https://stackoverflow.com/a/23296545/8022335
df2 = df1.query('A < 10')
df2.iloc[0,1] = 100

3)警告:是的 原来改变了:没有

# df1 will be unaffected because boolean indexing with .loc
# always returns a copy
#
# Reference:
# https://stackoverflow.com/a/17961468/8022335
df2 = df1.loc[df1['A'] < 10,:]
df2.iloc[0,1] = 100

4)警告:没有 原来改变了:没有

# df1 will be unaffected because list indexing with .loc (or .iloc)
# always returns a copy
#
# Reference:
# Same as 4)
df2 = df1.loc[[0,3,4],:]
df2.iloc[0,1] = 100

5)警告:没有 原来改变了:是的(对新手来说很困惑但很有意义)

# df1 will be affected because scalar/slice indexing with .iloc/.loc
# always references the original dataframe, but may sometimes 
# provide a view and sometimes provide a copy
#
# Reference: docs
df2 = df1.loc[:10,:]
df2.iloc[0,1] = 100

tl; dr从原始数据框创建新数据框时,更改新数据框: 当使用.loc / .iloc标量/切片索引来创建新数据帧时,将更改原始文件。 当使用.loc,.query().copy()进行布尔索引来创建新数据帧时,不会更改原始内容

python pandas views chained-assignment
3个回答
4
投票

这是熊猫的一个有点令人困惑甚至令人沮丧的部分,但是如果你遵循一些简单的工作流程规则,大多数情况下你不应该真的担心这个问题。特别要注意的是,当您有两个数据帧时,这里只有两个一般情况,其中一个是另一个的子集。

在这种情况下,Python的Zen规则“明确比隐含更好”是一个很好的指导方针。

案例A:对df2的更改不应影响df1

当然,这是微不足道的。您需要两个完全独立的数据帧,因此您只需显式复制:

df2 = df1.copy()

在此之后你对df2所做的任何事情只影响df2而不影响df1,反之亦然。

案例B:df2的变化也应该影响df1

在这种情况下,我认为没有一种通用的方法来解决问题,因为它完全取决于你想要做什么。但是,有几种标准方法非常简单,不应该对它们的工作方式有任何含糊之处。

方法1:将df1复制到df2,然后使用df2更新df1

在这种情况下,您基本上可以对上述示例进行一对一转换。这是示例#2:

df2 = df1.copy()
df2 = df1.query('A < 10')
df2.iloc[0,1] = 100

df1 = df2.append(df1).reset_index().drop_duplicates(subset='index').drop(columns='index')

不幸的是,通过append重新合并在那里有点冗长。您可以使用以下内容更干净地完成它,尽管它具有将整数转换为浮点数的副作用。

df1.update(df2)   # note that this is an inplace operation

方法2:使用面具(根本不要创建df2

我认为这里最好的一般方法是不要创建df2,而是让它成为df1的蒙版版本。有点不幸的是,你不能直接翻译上面的代码,因为它混合了lociloc,这对于这个例子很好,尽管对于实际使用可能是不现实的。

优点是您可以编写非常简单易读的代码。这是上面示例#2的替代版本,其中df2实际上只是df1的蒙版版本。但是,如果列“C”== 10,我将改变而不是通过iloc更改。

df2_mask = df1['A'] < 10
df1.loc[ df2_mask & (df1['C'] == 10), 'B'] = 100

现在,如果你打印df1df1[df2_mask],你会看到每个数据帧的第一行的列“B”= 100。显然这在这里并不令人惊讶,但这是遵循“显性优于隐性”的固有优势。


0
投票

我有同样的疑问,过去我没有成功地搜索过这个回复。所以现在,我只是证明原始版本没有改变,并在开始删除警告时使用这个代码的和平程序:

 import pandas as pd
 pd.options.mode.chained_assignment = None  # default='warn'

0
投票

你只需要用.iloc[0,1]替换.iat[0,1]

更一般地说,如果你只想修改一个元素,你应该使用.iat.at方法。相反,当您一次修改更多元素时,应使用.loc.iloc方法。

这样做的大熊猫不会发出任何警告。

© www.soinside.com 2019 - 2024. All rights reserved.