最近,我正在研究句子分类问题,这些句子只不过是关于产品和客户的一两条评论,就产品提供的各种功能提供反馈。在预处理(删除停用词和词干)之后,我正在使用特征提取库(如word2vec,tf-idf)和聚类算法(k-mean)来运行我的句子以进行无监督的句子分类 - 输出是可以接受的。然而,我正在寻找更多关于聚类算法的选项,特别是想尝试LDA以进一步提高输出质量,但是我遇到了this论文,列出了LDA用于句子分类的一些事实。
我的问题是 - 在句子(而不是文件)分类上使用LDA会有帮助吗?除了K-mean之外,什么是无监督学习的其他替代方案,这可以很好地与句子分类。提前感谢你的所有建议。
注意:我正在使用pyspark API在Spark 1.6.1环境中练习练习。
1个主题类似:每个主题的频繁词汇重叠很多,主题分享几乎相同的词汇。
我的理解之一是,我的评论属于特定领域。例如,我的产品属于信用卡域,所有评论都围绕着这个单一域名。此外,我试图绘制文字分布,发现最常使用的词只占总人口的2%左右。
是。 LDA可以(但不总是)也在处理句子。
但它往往在较长的文档上工作得更好。但你的句子比推文更长,这很好。
重叠不一定是您的输入(文档或句子)的函数,但很可能是您的超参数选择的结果。例如,您可以选择较低的alpha以减少与主题的重叠。
来自https://stats.stackexchange.com/questions/37405/natural-interpretation-for-lda-hyperparameters
在实践中,高alpha值将导致文档在其包含的主题方面更加相似。高beta值同样会导致主题在包含的单词方面更加相似。
“”与我们提出的“每个句子一个主题”假设不同,所有这些方法都允许每个句子包含多个主题,并使用各种方法来合并句子结构。最直接的方法是将每个句子视为文档并应用关于句子而不是文献收集的LDA模型。尽管它简单,但这种方法称为local-LDA(Brody和Elhadad 2010),已被证明在总结消费者评论的同时有效发现有意义的主题。(p.1376)“ “”见:https://pubsonline.informs.org/doi/pdf/10.1287/mnsc.2014.1930