每次运行时,Google新闻Word2Vec型号都会占用存储空间吗?

问题描述 投票:0回答:1

这似乎是一个奇怪的问题,但我是新来的,所以我想不管怎样。

我想在我的笔记本电脑上使用这个Google新闻模型来处理各种不同的文件。这意味着我将在不同的Jupyter笔记本中反复运行这一行:

模型= word2vec.KeyedVectors.load_word2vec_format( “了Googlenews向量-negative300.bin”,二进制=真)

这吃了1)存储(我注意到我的存储无缘无故地指数填充)2)如果我在运行下一个笔记本之前关闭之前的笔记本,那么内存会少。

我的存储空间在一天内下降了50GB,我在这台计算机上唯一做的就是运行Google新闻模型(我没有做过most_similar())。重新启动和关闭笔记本电脑没有帮助,笔记本电脑上没有任何大文件。有任何想法吗?

谢谢。

python nlp gensim word2vec word-embedding
1个回答
1
投票

只是加载模型通常不会再使用磁盘存储。 (例外情况:如果加载或使用需要RAM之外的可寻址内存,您可能会开始使用虚拟内存,根据您的操作系统,这可能会显示为更少的磁盘空间。但是,对于这些类型的模型,您希望避免依赖任何内存虚拟内存,因为基本的most_similar()操作在整个模型中循环,如果每次从磁盘读取,它将非常慢。)

加载模型将使用内存,然后在第一次做most_similar()时更多。 (这需要单位标准化的向量,这是在第一次需要时计算然后缓存的。)

但是终止笔记本应该释放内存。 (请注意,关闭选项卡可能无法干净地终止Jupyter笔记本。如果笔记本电脑仍然在笔记本电脑服务器上运行,即使没有浏览器查看它,它仍将使用/保持内存。)

© www.soinside.com 2019 - 2024. All rights reserved.