我编写了一个程序,用于分析网站上给定的一段文本并对其有效性进行概念分类。该代码基本上对描述进行矢量化处理(从给定网页的HTML实时获取),并从中获取一些输入作为决策依据。还有更多功能,例如网站的域名和我明确计算过的一些关键字。
我能够达到的最高准确度是使用RandomForestClassifier(> 90%)。除了合并更复杂的模型外,我不确定如何才能提高精度。我尝试使用MLP,但是对于任何超参数集,它似乎都没有超过以前的精度。我大约有2000个数据点可用于培训。
是否有最适合此类项目的分类器?有人对我如何带来改进有任何建议吗? (如果需要详细说明,我会做。)
关于我总体上如何改进该项目的任何建议?我是否也应该在网页上添加文字?我应该怎么做?我尝试浏览了一些站点,但是下一个站点似乎未包含在任何特定元素中,而描述很容易从HTML获得。有帮助吗?
我还可以将其他功能作为特征吗?如果有人可以提出任何创意,我将不胜感激。
您可以使用关键字NLP搜索。您面临的任务是深度学习的热门话题,被称为自然语言处理。