是否有替代方法可以在内存中完全加载预先训练好的字嵌入?

问题描述 投票:1回答:1

我想在我的机器学习模型中使用预先训练过的单词嵌入。我拥有的嵌入文件大约是4GB。我目前在字典中将整个文件读入内存,每当我想将一个单词映射到它的向量表示时,我就在该字典中执行查找。

内存使用率非常高,我想知道是否有另一种使用字嵌入的方法,而无需将整个数据加载到内存中。

我最近遇到过Python中的生成器。他们可以帮我减少内存使用量吗?

谢谢!

python machine-learning memory-management nlp word-embedding
1个回答
1
投票

你有什么任务?如果这是一个基于相似性的任务,你可以简单地在gensim中使用load_word2vec_format方法,这允许你传递加载的向量数量的限制。类似于Googlenews集的向量按频率排序,这将为您提供关键向量。这在理论上也是有意义的,因为具有低频率的词通常具有相对差的表示。

© www.soinside.com 2019 - 2024. All rights reserved.