我有几千个常用字,例如LLC,INC,CO,我需要从pandas数据框列中的几百万个公司名称的末尾删除。以下内容删除了任何位置的常用词:
toexlude = dfwcomwords['ending'].tolist()
data['names'] = data['names'].apply(lambda x: ' '.join([word for word in x.split() if word not in (toexclude)]))
但是我只想删除名称末尾的单词,即“ INC INTERNATIONAL LLC”应为“ INC INTERNATIONAL”。 (以上内容使其为“国际”。)任何帮助将不胜感激。
您可以检查word
的两个条件:(1)是否在toexclude
中,以及(2)它是否是公司名称中的最后一个字。
toexlude = dfwcomwords['ending'].tolist()
def remove_suffix(x):
x_list = x.split()
return ' '.join([word for word in x_list if not (word in toexclude and word == x_list[-1])])
data['names'] = data['names'].apply(remove_suffix)