Pythons逐行应用数据

Question

当函数有其他参数时，我不明白在创建函数时应该如何使用“row”参数。我想创建一个函数来计算我的数据框“文件”的新列。

这非常有效：

def imputation(row):    
    if  (row['hour_y']==0) & (row['outlier_idx']==True) :
        val=file['HYDRO'].mean()
    else : 
        val=row['HYDRO']
    return val

file['minute_corr'] = file.apply(imputation, axis=1)

但这不起作用（我添加了一个论点）：

def imputation(row,variable):    
    if  (row['hour_y']==0) & (row['outlier_idx']==True) :
        val=file[variable].mean()
    else : 
        val=row[variable]
    return val
file['minute_corr'] = file.apply(imputation(,'HYDRO'), axis=1)

Answer 1

试试这种矢量化方法：

file['minute_corr'] = np.where((file['hour_y']==0) & file['outlier_idx'],
                               file['HYDRO'].mean(),
                               file['HYDRO'])

Answer 2

使用apply函数，您还可以并行化计算。

file['minute_corr'] = file.apply(lambda row: (file['HYDRO'].mean() if (row['hour_y']==0) & (row['outlier_idx']==True) else row['HYDRO'] ), axis=1)

Answer 3

apply方法可以采用位置和关键字参数：

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.apply.html

对于最后一行，请尝试：尝试：

file['minute_corr'] = file.apply(imputation,args=('HYDRO',), axis=1)

Pythons逐行应用数据

问题描述投票：1回答：3

3个回答

最新问题

Pythons逐行应用数据

问题描述 投票：1回答：3

3个回答

最新问题

问题描述投票：1回答：3