是否有任何用于无监督训练的情感论坛数据集?

问题描述 投票:0回答:2

我最近完成了一个机器学习课程,想做一个论坛情绪分析工具,把它应用到股票相关的论坛中。

想法是:

  1. 捕获(文本挖掘)用户的评论,并评估他们评论的情绪(正面、负面、中性)。
  2. 捕捉这些评论后发生的事情(股票市场),并相应地为用户分配权重(如果用户的情绪正确并且市场遵循相同的方向,则权重更大)
  3. 使用评论作为预测市场方向的工具。

实际上,我自己(关注论坛)加上我自己的技术分析和强制性尽职调查,对我来说效果很好。我只是想尝试让它稍微自动化一点,甚至可能允许一个程序来玩我的一些账户(首先进行纸面交易,如果它表现不错,就在真实账户中分配一些钱)

这将是我的第一个机器学习项目(只是作为概念验证),因此非常感谢任何意见。

我发现最大的问题是我想做一个无监督训练,我需要一个样本数据集来做训练。

问题:是否有任何已知的论坛情绪数据集可用于无监督训练?

我找到了几个情绪数据集(推特、imbd、亚马逊评论),但它们非常针对他们的利基市场(短消息、电影、产品……),但我正在寻找更通用的东西。

sentiment-analysis unsupervised-learning
2个回答
2
投票

由于您正在寻找一种无监督的方法,因此您可以使用与您的“真实案例场景”相匹配的任何数据集。文本挖掘和情感分析通常是针对手头的问题量身定制的,因此很容易直接从真实数据开始。最好的方法是构建一个抓取器,直接抓取您要分析的论坛帖子。您可以使用 Python (beautifulsoup/selenium) 轻松构建爬虫。网上有很多不错的教程,例如:https://www.dataquest.io/blog/web-scraping-tutorial-python/


0
投票

如果您想执行全面的情绪分析,请查看 Sentimind for Excel

© www.soinside.com 2019 - 2024. All rights reserved.