我最近完成了一个机器学习课程,想做一个论坛情绪分析工具,把它应用到股票相关的论坛中。
想法是:
实际上,我自己(关注论坛)加上我自己的技术分析和强制性尽职调查,对我来说效果很好。我只是想尝试让它稍微自动化一点,甚至可能允许一个程序来玩我的一些账户(首先进行纸面交易,如果它表现不错,就在真实账户中分配一些钱)
这将是我的第一个机器学习项目(只是作为概念验证),因此非常感谢任何意见。
我发现最大的问题是我想做一个无监督训练,我需要一个样本数据集来做训练。
问题:是否有任何已知的论坛情绪数据集可用于无监督训练?
我找到了几个情绪数据集(推特、imbd、亚马逊评论),但它们非常针对他们的利基市场(短消息、电影、产品……),但我正在寻找更通用的东西。
由于您正在寻找一种无监督的方法,因此您可以使用与您的“真实案例场景”相匹配的任何数据集。文本挖掘和情感分析通常是针对手头的问题量身定制的,因此很容易直接从真实数据开始。最好的方法是构建一个抓取器,直接抓取您要分析的论坛帖子。您可以使用 Python (beautifulsoup/selenium) 轻松构建爬虫。网上有很多不错的教程,例如:https://www.dataquest.io/blog/web-scraping-tutorial-python/
如果您想执行全面的情绪分析,请查看 Sentimind for Excel