二进制输出的文本分类

问题描述 投票:-1回答:1

我不是数据科学家,也不是数据科学/机器学习的新手。我的目标是预测某些文本是否属于特定类。我看起来很天真的海湾来分类不同类的文本,但在这里我只有一个类。最后,我想预测文本是否属于某个类(例如,如果文本的类型为technical,而不是文本是technicalpolitical)。我只有积极的数据集(technical类型的所有文本)用于训练。

据我所知,Naive海湾将需要培训的正数据集和负数据集。不确定这是否是此处用于解决问题的最佳算法。如果有的话,想学习更好的方法。谢谢。

machine-learning data-science text-classification naivebayes
1个回答
0
投票

您有两种选择:

  1. 您可以使用自动编码器,如下所示: 第1步:使用您拥有的正面数据进行训练 步骤2:使用错误计算作为分类器:向已在第一步中训练的自动编码器提供新数据,并将具有高错误的数据单元作为“异常”(在您的情况下不属于所需的文本类。)
  2. 您还可以使用像k-means这样的聚类技术,在这种情况下,您需要花费更多时间在功能工程上(选择文本中最相关的功能)。
© www.soinside.com 2019 - 2024. All rights reserved.