是否有最适合这种基于NLP的项目的模型/分类器？

问题描述投票：0回答：1

我编写了一个程序，用于分析网站上给定的一段文本并对其有效性进行概念分类。该代码基本上对描述进行矢量化处理（从给定网页的HTML实时获取），并从中获取一些输入作为决策依据。还有更多功能，例如网站的域名和我明确计算过的一些关键字。

我能够达到的最高准确度是使用RandomForestClassifier（> 90％）。除了合并更复杂的模型外，我不确定如何才能提高精度。我尝试使用MLP，但是对于任何超参数集，它似乎都没有超过以前的精度。我大约有2000个数据点可用于培训。

是否有最适合此类项目的分类器？有人对我如何带来改进有任何建议吗？（如果需要详细说明，我会做。）

关于我总体上如何改进该项目的任何建议？我是否也应该在网页上添加文字？我应该怎么做？我尝试浏览了一些站点，但是下一个站点似乎未包含在任何特定元素中，而描述很容易从HTML获得。有帮助吗？

我还可以将其他功能作为特征吗？如果有人可以提出任何创意，我将不胜感激。

machine-learning

deep-learning

nlp

text-classification

1个回答

1
投票

您可以使用关键字NLP搜索。您面临的任务是深度学习的热门话题，被称为自然语言处理。