我正在开发一个项目,我正在收集电子邮件,使用电子邮件包剥离邮件正文,然后我想使用体育,政治,技术等标签对它们进行分类......
我已经成功地从我的电子邮件中删除了邮件正文,现在我正在寻找开始分类。我已经使用move_reviews语料库将文档分为正面和负面评论,完成了情感分析分类的经典示例。
我只是想知道如何将这种方法应用到我的项目中?我可以创建多个类,如体育,科技,政治,娱乐等吗?我在这里遇到了一个路障,正在寻找正确的方向。
如果这不是一个适合SO的问题,我会很乐意删除它。
编辑:大家好,我看到这篇文章已经获得了一点人气,我最终成功完成了这个项目,这里是项目代码的链接GitHub Repo:https://github.com/codyreandeau/Email-Categorizer/blob/master/Email_Categorizer.py
要创建分类器,您需要一个包含您要查找的类的训练数据集。在您的情况下,您可能需要:
brown corpus是一个开创性的文本,其中包含许多类别。这可能是一个起点,帮助您使用像gensim
这样的包来分类您的电子邮件,以找到语义相似的文本。
对电子邮件进行分类后,您可以训练系统预测每封未见电子邮件的标签。
文本分类的任务是监督机器学习问题。这意味着您需要标记数据。当您接近movie_review问题时,您使用+ 1 / -1标签来训练您的情绪分析系统。
回到你的问题:
建议:获取电子邮件标签可能比您想象的要容易。例如,Gmail可让您使用文件夹信息导出电子邮件。如果您已对电子邮件进行了分类,则可以利用此功能。