对CountVectorizer词汇进行词法归类[关闭]

问题描述 投票:0回答:1

我正在执行NLP任务,假定该文件包含消息。我需要根据此消息的日期,从该文件中计算单词数,并退还一袋单词。例如,在1月23日,单词“ IT”被使用了100次,依此类推。

我正在苦苦挣扎的问题是,这些词应进行词素化,而词素化需要太多时间。提示我在数完单词后应该对词汇进行词素化,但是实际上我不明白如何使用应该用于此任务的CountVectorizer矩阵来做到这一点。

我正在执行NLP任务,假定该文件包含消息。我需要根据此消息的日期,从该文件中计算单词数,并退还一袋单词。例如,在23 ...

python scikit-learn nlp
1个回答
0
投票

您是否尝试使用nltk软件包?运作非常快

© www.soinside.com 2019 - 2024. All rights reserved.