[使用Python进行文本分类存储

问题描述 投票:0回答:1

在文本分类中,我拥有近百万种功能,现在我想对常用功能进行分类。请提出一些建议。

例如:

<1>[alumel', 'alumin', 'alumina', 'aluminia', 'aluminium', 'aluminu', 'aluminum', 'alumnia'] ->[alum]     
<2>[solen', 'soleniod', 'soleno', 'solenod', 'solenoi', 'solenoid', 'solid', 'solidcor', 'solinoid', 'soln', 'solnd', 'solonoid'] -> [Solenoid]     
<3>['ny', 'nyetorr', 'nyl', 'nylin', 'nyln', 'nylo', 'nyloc', 'nylock', 'nylocpatch', 'nylok']--[Feature X]

谢谢。

python nlp text-classification
1个回答
0
投票

您想要stem(从末尾砍下位以找到共同的词根)或lemmatize(将每个单词还原成其字典形式)作为文本。合法化是一个更为复杂但较不粗糙的过程,我可能会建议这样做。

[Here's an article explaining the conceptshere's a notebook explaining how to lemmatize with NLTK in Python

© www.soinside.com 2019 - 2024. All rights reserved.