是否有最适合这种基于NLP的项目的模型/分类器?

问题描述 投票:0回答:1

我编写了一个程序,用于分析网站上给定的一段文本并对其有效性进行概念分类。该代码基本上对描述进行矢量化处理(从给定网页的HTML实时获取),并从中获取一些输入作为决策依据。还有更多功能,例如网站的域名和我明确计算过的一些关键字。

我能够达到的最高准确度是使用RandomForestClassifier(> 90%)。除了合并更复杂的模型外,我不确定如何才能提高精度。我尝试使用MLP,但是对于任何超参数集,它似乎都没有超过以前的精度。我大约有2000个数据点可用于培训。

是否有最适合此类项目的分类器?有人对我如何带来改进有任何建议吗? (如果需要详细说明,我会做。)

关于我总体上如何改进该项目的任何建议?我是否也应该在网页上添加文字?我应该怎么做?我尝试浏览了一些站点,但是下一个站点似乎未包含在任何特定元素中,而描述很容易从HTML获得。有帮助吗?

我还可以将其他功能作为特征吗?如果有人可以提出任何创意,我将不胜感激。

machine-learning deep-learning nlp text-classification
1个回答
1
投票

您可以使用关键字NLP搜索。您面临的任务是深度学习的热门话题,被称为自然语言处理。

© www.soinside.com 2019 - 2024. All rights reserved.