Python:如何从公司名称中删除常用词列表?

问题描述 投票:0回答:1

我有几千个常用字,例如LLC,INC,CO,我需要从pandas数据框列中的几百万个公司名称的末尾删除。以下内容删除了任何位置的常用词:

toexlude = dfwcomwords['ending'].tolist()

data['names'] = data['names'].apply(lambda x: ' '.join([word for word in x.split() if word not in (toexclude)]))

但是我只想删除名称末尾的单词,即“ INC INTERNATIONAL LLC”应为“ INC INTERNATIONAL”。 (以上内容使其为“国际”。)任何帮助将不胜感激。

python python-3.x pandas
1个回答
0
投票

您可以检查word的两个条件:(1)是否在toexclude中,以及(2)它是否是公司名称中的最后一个字。

toexlude = dfwcomwords['ending'].tolist()

def remove_suffix(x):
    x_list = x.split()
    return ' '.join([word for word in x_list if not (word in toexclude and word == x_list[-1])])

data['names'] = data['names'].apply(remove_suffix)
© www.soinside.com 2019 - 2024. All rights reserved.