[使用Python进行文本分类存储

问题描述投票：0回答：1

在文本分类中，我拥有近百万种功能，现在我想对常用功能进行分类。请提出一些建议。

例如：

<1>[alumel', 'alumin', 'alumina', 'aluminia', 'aluminium', 'aluminu', 'aluminum', 'alumnia'] ->[alum]     
<2>[solen', 'soleniod', 'soleno', 'solenod', 'solenoi', 'solenoid', 'solid', 'solidcor', 'solinoid', 'soln', 'solnd', 'solonoid'] -> [Solenoid]     
<3>['ny', 'nyetorr', 'nyl', 'nylin', 'nyln', 'nylo', 'nyloc', 'nylock', 'nylocpatch', 'nylok']--[Feature X]

谢谢。

python nlp text-classification

1个回答

0
投票

您想要stem（从末尾砍下位以找到共同的词根）或lemmatize（将每个单词还原成其字典形式）作为文本。合法化是一个更为复杂但较不粗糙的过程，我可能会建议这样做。

[Here's an article explaining the concepts和here's a notebook explaining how to lemmatize with NLTK in Python。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.