GloVe 嵌入空字符串

问题描述 投票:0回答:1

它看起来像是在

glove.twitter.27B.200d.txt
文件中嵌入空字符串,该文件是此 zip 文件的一部分:

https://nlp.stanford.edu/data/glove.twitter.27B.zip

在第 38523 行提供,但我不能 100% 确定这就是我所认为的。我没有太多地使用这些嵌入,想知道是否有人可以验证这种情况(或不是)?

nlp stanford-nlp word-embedding
1个回答
0
投票

经过一番探索,我很确定情况确实如此。我编写了一个函数来查找具有最接近相关标记的欧几里得距离的标记,结果是 unicode 取消字符 \x94

用于得出这些结论的代码位于以下笔记本中:

https://github.com/MichaelSzczepaniak/WordEmbeddings/blob/master/WordEmbeddings.ipynb

我在第 38523 行的开头添加了“<>”,这样就可以找到一个标记。然后我运行

get_embeddings
函数来创建标记及其向量的字典。最后我跑了:

word_NN("<>", dict_glove_embs)

并得到上面报告的结果。

© www.soinside.com 2019 - 2024. All rights reserved.