Stanford CoreNLP 文本分类情感分析

问题描述 投票:0回答:1

我正在完成我的个人学士学位期末项目,预计将在大约 50 天后完成。我想要创建的网站是一个用户可以分享他们觉得有趣的文章链接的网站(让他们高兴的事情)。这是一种类似 Reddit 的格式,用户可以在全球范围内发帖,其他人可以根据文章的满意度来投票赞成或反对文章。热门帖子将显示在列表顶部,最不受欢迎的帖子将显示在底部。

该项目更令人兴奋的部分是实现 NLP 机器学习服务,该服务在网络上抓取与热门热门文章类似的文章,并自动将文章发布到网站(除了投票之外无需用户输入)。为了做到这一点,我正在考虑在服务器上运行斯坦福 CoreNLP 服务,挑选出最热门的文章,根据它们的内容对它们进行分类(例如,关于唐纳德·特朗普的文章应该自动生成标签,例如'唐纳德特朗普','共和党','政治'等)然后通过对文章进行情感分析,使用斯坦福CoreNLP情感注释器,我可以看到公众对文章主题的看法(即标签)。然后通过使用网络爬虫,从网络中提取文章,并对提取的文章进行类似的情感分析,我可以找到合适的文章发布到网站上。

但是,我在斯坦福 CoreNLP 中找不到任何用于文本分类的注释器。有什么办法可以实现我的想法吗?更好的是,有没有更好的方法来实现我想要实现的目标。

web-crawler nlp stanford-nlp sentiment-analysis text-classification
1个回答
0
投票

我认为这个答案不会对发帖者有帮助,但希望其他人可能受益。我觉得这个问题中很多事情都被错误地表述了,而且缺乏清晰度,但这就是我认为你需要的 -

  • 一款让用户可以通过“点赞”功能分享链接的应用程序
  • 从趋势帖子(您使用喜欢计数找到)确定趋势主题:您将需要应用一些算法(可能是主题建模)来找到它。
  • 一个网络爬虫/抓取工具,可让您获取有关您的算法识别的主题的文章
  • 你还想用极性分数标记你的文章(你实际上并不需要 coreNLP 只是为了这个原因,因为还有其他可用的软件包,我发现 coreNLP 很重 - 我从 R 运行它并曾经遇到一些与 Java 内存相关的问题经常出错。不过对于其他 NLP 相关任务来说这很好。)

回到你的最后一个问题,如果你使用的是 R - 这是代码:

 t<- "This tea is great" # the input text

annotatedStr <- annotateString(t) #annotator

sentiment <- getSentiment(annotation) #call to get your sentiment score
© www.soinside.com 2019 - 2024. All rights reserved.