在文本分类中,我拥有近百万种功能,现在我想对常用功能进行分类。请提出一些建议。
例如:
<1>[alumel', 'alumin', 'alumina', 'aluminia', 'aluminium', 'aluminu', 'aluminum', 'alumnia'] ->[alum]
<2>[solen', 'soleniod', 'soleno', 'solenod', 'solenoi', 'solenoid', 'solid', 'solidcor', 'solinoid', 'soln', 'solnd', 'solonoid'] -> [Solenoid]
<3>['ny', 'nyetorr', 'nyl', 'nylin', 'nyln', 'nylo', 'nyloc', 'nylock', 'nylocpatch', 'nylok']--[Feature X]
谢谢。
您想要stem(从末尾砍下位以找到共同的词根)或lemmatize(将每个单词还原成其字典形式)作为文本。合法化是一个更为复杂但较不粗糙的过程,我可能会建议这样做。
[Here's an article explaining the concepts和here's a notebook explaining how to lemmatize with NLTK in Python。