我尝试了橙色框架的朴素贝叶斯分类。这些方法非常不直观,文档非常无组织。这里有没有人推荐另一个框架?
我现在主要使用NaiveBayesian。我正在考虑使用nltk的NaiveClassification,但他们认为他们不能处理连续变量。
我有什么选择?
scikit-learn有一个高斯朴素贝叶斯分类器的implementation。通常,此库的目标是在易于阅读和使用的代码与效率之间提供良好的折衷。希望它应该是一个很好的库来学习算法工作。
This可能是一个很好的起点。它是一个朴素贝叶斯分类器的python实现的完整源代码(文本解析器,数据存储和分类器)。虽然它已经完成,但它仍然足够小,可以在一个会话中消化。我认为代码编写得相当好并且评论很好。这是Programming Collective Intelligence一书的源代码文件的一部分。
要获取源代码,请单击链接,dl并从主文件夹“PCI_Code”解压缩zip,转到文件夹“chapter 6”,其中包含一个python源文件“docclass.py”。这是贝叶斯垃圾邮件过滤器的完整源代码。训练数据(电子邮件)保存在一个sqlite数据库中,该数据库也包含在同一文件夹中('test.db')您需要的唯一外部库是与sqlite(pysqlite)的python绑定;你还需要sqlite本身,如果你还没有安装它)。
我发现Divmod Reverend是最简单易用的Python贝叶斯分类器。
我刚把保罗格雷厄姆的LISP东西转换成Python http://www.paulgraham.com/spam.html
还有SpamBayes,我认为它可以用作一般天真的贝叶斯clasisfier,而不仅仅是垃圾邮件。