我有这个求职者简历数据集,其中包含地点、经历时间、教育、证书、技能和语言,我想根据工作要求从数据集中对最适合某项工作的简历进行分类。 在每一列中,它包含一个列表,其中包含许多技能、语言、教育等。现在,我很困惑如何训练数据并匹配工作要求,然后使用 Python 使用朴素贝叶斯训练它。
我需要一个关于如何预处理数据的想法
预处理阶段(即使我知道你已经这样做了):
数据就绪阶段(希望你已经做到了):
策略:因为这是一个单一的工作,围绕职位描述信息创建你自己的词库。无需使用繁重的嵌入层或 Word2Vec。
一切都是数字。希望您仍然拥有与开始时相同的数据结构,让我们适应分类器。使用sklearn。从这里开始就很简单了。
Counter Strategy:也许贝叶斯在这种情况下不是最好的方法,你想找到合适的候选人,也许使用基于余弦相似度的模型。简单直接。