如何检测给定字符串中的停用词,并仅将该停用词从句子大小写转换为小写

问题描述 投票:0回答:1

我有以下代码

import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
import re
text='Director Of IT'
pattern = re.compile(r'\b(' + r'|'.join(stopwords.words('english'))+ r')\b\s*') #remove stop words
textmod5 = pattern.sub('', text)
print(textmod5)

我只想将停用词'Of'改成小写的'of'。如何使用上述相同的表达式实现这一目标。

我尝试了以下操作,但无济于事

pattern = re.compile(r'\b(' + r'|'.join(stopwords.words('english'))+ r')\b\s*'.lower)
pattern = re.compile(r'\b(' + r'|'.join(stopwords.words.lower(('english')))+ r')\b\s*')

实现我的目标的正确模式是什么?>

当前输出:IT总监

必填项:IT主管

我有以下代码,从nltk.corpus导入nltk。 join(stopwords.words('english'))+ ...

regex python-3.x string nlp stop-words
1个回答
0
投票

[我在这里看到另一个问题:当您转换为小写或使用忽略大小写标志时,如何区分不应触摸的IT和停用词列表中的it?] >

您可以使用一个替换函数,该函数与应以小写字母排列的单词列表和应忽略的另一个单词列表配对。这也将有必要在表达式中添加忽略大小写标志,并稍微调整间距。例如:

© www.soinside.com 2019 - 2024. All rights reserved.