我有一个 pandas 数据框。
keyword adGroup goal6Value adCost
aaaa (not set) 0 0.0
+bbbb (not set) 0 0.0
+cccc (not set) 2072 0.0
dddd (not set) 0 0.0
我更改了第一列中的值,根据某些条件为关键字添加括号(如果没有“+”符号,则添加括号)。
keyword adGroup goal6Value adCost
[aaaa] (not set) 0 0.0
+bbbb (not set) 0 0.0
+cccc (not set) 2072 0.0
[dddd] (not set) 0 0.0
这是为添加括号而创建的函数:
def add_bracket(df):
df["keyword"] = df["keyword"].astype('str')
keyword_list = list()
for index, row in df.iterrows():
keyword = row["keyword"]
if keyword.find("+") < 0:
keyword = "[" + keyword + "]"
keyword_list.append(keyword)
kw = pd.DataFrame(keyword_list, columns = ['Keyword2'])
df2 = pd.concat([df, kw], axis=1).drop(columns["keyword"]).rename(columns={'Keyword2': 'keyword'})
df2 = df2[['keyword', 'adGroup', 'goal6Value', 'adCost']]
return df2
该函数产生了我想要的结果,但是 pandas 有没有一种更简洁的方法,这样我就不需要创建 df2 来添加第 1 列的输出(基本上就地进行更改)?
解决方案: 根据@Inder的建议答案,整个函数可以写在一行中。
df["keyword"] = df.keyword.apply(lambda x: "[" + x + "]" if x.find("+") < 0 else x)
基于@RafaelC 的回答。
mask = df.keyword.str.contains('+', regex=False)
df.loc[~mask, 'keyword'] = "[" + df.loc[~mask, 'keyword'] + "]"
(假设您这样做是为了获得类似列表的视图,而不是使用列表对象)
只是总和
mask = df.keyword.str.contains('+', regex=False)
df.loc[~mask, 'keyword'] = "[" + df.loc[~mask, 'keyword'] + "]"
keyword
0 [aaaa]
1 [bbbb]
2 [cccc]
3 [dddd]
为什么这比
apply
更好?
看一下时间安排:
%timeit "[" + df.loc[mask, 'keyword'] + "]"
348 µs ± 24.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
%timeit df.keyword.apply(lambda x:[x])
112 µs ± 3.46 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
哇哦,这样申请就更快了?
不完全是。也许在一个非常非常小的
df
中,但是看看在更大的 df
上的相同操作,行数多了 100,000 倍:
df = pd.concat([df]*100000)
%timeit "[" + df.loc[mask, 'keyword'] + "]"
4.54 ms ± 135 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit df.keyword.apply(lambda x:[x])
129 ms ± 2.74 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
所以
apply
变得非常非常慢非常快,但矢量化操作却不会
您可以使用申请来达到此目的:
df["keyword"]=df.keyword.apply(lambda x:[x])
所以它的dataframe.name_of_column.apply(“操作”)
输出将是:
keyword adGroup goal6Value adCost
[aaaa] (not set) 0 0.0
[bbbb] (not set) 0 0.0
[cccc] (not set) 2072 0.0
[dddd] (not set) 0 0.0