在自然语言处理中,有没有什么好的方法可以减少词汇量?

问题描述 投票:1回答:2

[]在执行诸如文本分类,质量检查之类的任务时,从语料库生成的原始词汇通常太大,包含很多“不重要”的单词。我见过的减小词汇量的最流行方法是丢弃停用词和低频词。

例如,在gensim中>

gensim.utils.prune_vocab(vocab, min_reduce, trim_rule=None):
    Remove all entries from the vocab dictionary with count smaller than min_reduce.
    Modifies vocab in place, returns the sum of all counts that were pruned.

但是在实践中,设置最小计数是经验性的,似乎不太准确。我注意到词汇表中每个单词的词频经常遵循长尾分布,如果我只保留占据X%(95%,90%,85%,..., )的总学期频率?还是在不严重影响NLP任务的情况下,有任何明智的方法来减少词汇量?

[]在执行诸如文本分类,质量检查之类的任务时,从语料库生成的原始词汇通常太大,包含很多“不重要”的单词。我见过的最流行的方式...

machine-learning deep-learning nlp gensim
2个回答
0
投票

确实有一些最近的进展试图解决这个问题。最值得注意的可能是subword unit


0
投票

通常,训练数据中频率最低的单词也是最安全的丢弃方法。

© www.soinside.com 2019 - 2024. All rights reserved.