根据同一行其他列中的值将函数应用于数据框列元素？

Question

我有一个数据框：

df = pd.DataFrame(
    {'number': ['10', '20' , '30', '40'], 'condition': ['A', 'B', 'A', 'B']})

df = 
    number    condition
0    10         A
1    20         B
2    30         A
3    40         B

我想对数字列中的每个元素应用一个函数，如下所示：

 df['number'] = df['number'].apply(lambda x: func(x))

但是，即使我将该函数应用于数字列，我希望该函数也引用

condition

列，即伪代码中：

func(n):
    #if the value in corresponding condition column is equal to some set of values:
        # do some stuff to n using the value in condition
        # return new value for n

对于单个数字和示例函数，我会编写：

number = 10
condition = A
def func(num, condition):
    if condition == A:
        return num*3
    if condition == B:
        return num*4

func(number,condition) = 15

如何将相同的功能合并到上面写的

apply

语句中？即引用条件列中的值，同时作用于数字列中的值？

注意：我已经阅读了

np.where()

、

pandas.loc()

和

pandas.index()

上的文档，但我只是不知道如何将其付诸实践。

我正在努力解决从函数内引用另一列的语法，因为我需要访问

number

和

condition

列中的值。

因此，我的预期输出是：

df = 
    number    condition
0    30         A
1    80         B
2    90         A
3    160         B

更新：上面的内容太模糊了。请参阅以下内容：

df1 = pd.DataFrame({'Entries':['man','guy','boy','girl'],'Conflict':['Yes','Yes','Yes','No']})


    Entries    Conflict
0    "man"    "Yes"
1    "guy"    "Yes"
2    "boy"    "Yes"
3    "girl"   "No

def funcA(d):
    d = d + 'aaa'
    return d
def funcB(d):
    d = d + 'bbb'
    return d

df1['Entries'] = np.where(df1['Conflict'] == 'Yes', funcA, funcB)

Output:
{'Conflict': ['Yes', 'Yes', 'Yes', 'Np'],
 'Entries': array(<function funcB at 0x7f4acbc5a500>, dtype=object)}

如何应用上面的 np.where 语句来获取评论中提到的 pandas 系列，并产生如下所示的所需输出：

所需输出：

    Entries    Conflict
0    "manaaa"    "Yes"
1    "guyaaa"    "Yes"
2    "boyaaa"    "Yes"
3    "girlbbb"   "No

Answer 1

由于问题是关于同一行的数据框列的 apply 函数，因此将 pandas

apply

函数与

lambda

结合使用似乎更准确：

import pandas as pd
df = pd.DataFrame({'number': [10, 20 , 30, 40], 'condition': ['A', 'B', 'A', 'B']})

def func(number,condition):
    multiplier = {'A': 2, 'B': 4}
    return number * multiplier[condition]

df['new_number'] = df.apply(lambda x: func(x['number'], x['condition']), axis=1)

在此示例中，

lambda

采用数据帧 df 的列 'number' 和 'condition'，并将同一行的这些列应用到具有 apply 的函数

func

。

这将返回以下结果：

df
Out[10]: 
 condition  number  new_number
0   A   10  20
1   B   20  80
2   A   30  60
3   B   40  160

对于 UPDATE 情况，也可以使用 pandas

apply

函数：

df1 = pd.DataFrame({'Entries':['man','guy','boy','girl'],'Conflict':['Yes','Yes','Yes','No']})

def funcA(d):
    d = d + 'aaa'
    return d
def funcB(d):
    d = d + 'bbb'
    return d

df1['Entries'] = df1.apply(lambda x: funcA(x['Entries']) if x['Conflict'] == 'Yes' else funcB(x['Entries']), axis=1)

在此示例中，

lambda

采用数据帧 df 的列 'Entries' 和 'Conflict'，并将这些列应用于与 apply 同一行的 funcA 或

funcB

。应用 funcA 或 funcB 的条件是通过 lambda 中的

if-else

子句完成的。

这将返回以下结果：

df
Out[12]:


    Conflict    Entries
0   Yes     manaaa
1   Yes     guyaaa
2   Yes     boyaaa
3   No  girlbbb

Answer 2

我不知道如何使用

pandas.DataFrame.apply

，但您可以定义某个

condition:multiplier

键值映射（见下面的

multiplier

），并将其传递到您的函数中。然后，您可以使用列表理解根据这些条件计算新的

number

输出：

import pandas as pd
df = pd.DataFrame({'number': [10, 20 , 30, 40], 'condition': ['A', 'B', 'A', 'B']})

multiplier = {'A': 2, 'B': 4}

def func(num, condition, multiplier):
    return num * multiplier[condition]

df['new_number'] = [func(df.loc[idx, 'number'], df.loc[idx, 'condition'], 
                     multiplier) for idx in range(len(df))]

结果如下：

df
Out[24]: 
  condition  number  new_number
0         A      10          30
1         B      20          80
2         A      30          90
3         B      40         160

可能有一个更“理想”的矢量化、纯熊猫解决方案。但这在紧要关头也有效。

Answer 3

上面代码的矢量化版本：

import pandas as pd

df = pd.DataFrame({'number': [10, 20 , 30, 40], 'condition': ['A', 'B', 'A', 'B']})

multiplier = {'A': 2, 'B': 4}

def func(num, condition, multiplier):
    return num * multiplier[condition]

df['new_number'] = df['number'] * df['condition'].map(multiplier)

根据同一行其他列中的值将函数应用于数据框列元素？

问题描述投票：0回答：3

3个回答

最新问题

根据同一行其他列中的值将函数应用于数据框列元素？

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3