是否有任何最佳实践来为基于文本的分类准备特征?

问题描述 投票:0回答:2

我们有很多客户的反馈和问题报告。它们是纯文本。我们正在尝试为这些文档构建一个自动分类器,以便未来反馈/问题可以自动路由到正确的支持团队。除了文本本身之外,我认为我们应该将客户资料、案例提交区域等内容纳入分类器中。我认为这可以为分类器做出更好的预测提供更多线索。

目前,所有选择训练的特征都是基于文本内容。如何包含上述元特征?

添加1

我目前的做法是首先对原始文本(包括标题和正文)进行一些典型的预处理,例如删除停用词、词性标记和提取重要词。然后我将标题和正文转换为单词列表,并以某种稀疏格式存储它们,如下所示:

实例 1:单词 1:单词 1 计数,单词 2:单词 2 计数,....

实例 2:wordX:word1 计数,wordY:word2 计数,....

对于其他非文本功能,我计划将它们添加为单词 columns 之后的新列。所以最终的实例将如下所示:

实例 1:word1:word1 计数,...,特征 X:值,特征 Y:值

machine-learning nlp text-mining
2个回答
5
投票
  1. 如果客户档案数据是二进制值(例如客户的性别),则特征可以设计为0,1,其中0代表男性,1代表女性。当特征具有多个值时,例如提交区域(假设我们这里有五个区域)。我们应该将其设计为具有五个维度的特征向量,例如[0 0 1 0 0],向量的每个维度表示该帖子是否来自该特定区域。在使用逻辑回归等分类器时,这种方法在实践中比使用具有多个值的特征更好

  2. 您正在使用称为词袋表示的功能。因为词袋是文档中单词的 tf,但是 tf 较高的单词是否应该比 tf 较低的单词更重要。我认为不是。在实践中,tf*idf 表现出更好的性能。

    idf(逆文档频率)是一种估计单词重要性的方法,通常,文档频率(df)是估计单词在分类中的重要性的好方法,因为当一个单词出现在较少的文档中时(nba总是出现在体育类的文档中)表现出更好的区分度,所以idf与单词的重要性呈正相关。


4
投票

只需将新特征连接到向量即可表示您认为重要的其他所有内容。分类变量(“a”、“b”或“c”)可以转换为 n 路变量的 n 个二进制特征。二进制或连续的可以保留原样。

然后您所要做的就是标准化您的特征,以确保某些特征的权重不会高于其他特征,并将它们输入分类器。判别模型是最合适的,因为您将添加许多潜在相关的特征:逻辑回归或 SVM 可能会很好地工作。

© www.soinside.com 2019 - 2024. All rights reserved.