我在一个xlsx文件里有多个网站的url,我在xlsx文件上运行了一个循环,并将url作为参数传给了下面的情感分析代码。我在xlsx文件上运行了一个循环,并将这些url作为参数传给了下面的情感分析代码,现在这段代码为我提供了整个网站的分析(网站只包含文字和数字),但问题是我想只对 "管理功能 "开头的段落进行分析。我如何才能做到这一点呢?下面是我的代码。
article = Article(j)
article.download()
article.parse()
#nltk.download('punkt')
article.nlp()
text = article.summary
obj = TextBlob(text)
sentiment = obj.sentiment.polarity
print(round(sentiment,2))
if sentiment==0:
print("neutral")
elif sentiment>0:
print("positive")
elif sentiment<0:
print("negative")
使用 regex
,类似下面的内容将与 "管理职能 "开头的段落相匹配。
found=re.search(r'^(Managerial function.*\s)', full_text, re.MULTILINE)
my_paragraph=found.group(0)
,其中 full_text
是你的整个文章文本。
记得要先添加这个导入。
import re