我正在执行NLP任务,假定该文件包含消息。我需要根据此消息的日期,从该文件中计算单词数,并退还一袋单词。例如,在1月23日,单词“ IT”被使用了100次,依此类推。
我正在苦苦挣扎的问题是,这些词应进行词素化,而词素化需要太多时间。提示我在数完单词后应该对词汇进行词素化,但是实际上我不明白如何使用应该用于此任务的CountVectorizer矩阵来做到这一点。
我正在执行NLP任务,假定该文件包含消息。我需要根据此消息的日期,从该文件中计算单词数,并退还一袋单词。例如,在23 ...
您是否尝试使用nltk软件包?运作非常快