它看起来像是在
glove.twitter.27B.200d.txt
文件中嵌入空字符串,该文件是此 zip 文件的一部分:
https://nlp.stanford.edu/data/glove.twitter.27B.zip
在第 38523 行提供,但我不能 100% 确定这就是我所认为的。我没有太多地使用这些嵌入,想知道是否有人可以验证这种情况(或不是)?
经过一番探索,我很确定情况确实如此。我编写了一个函数来查找具有最接近相关标记的欧几里得距离的标记,结果是 unicode 取消字符 \x94。
用于得出这些结论的代码位于以下笔记本中:
https://github.com/MichaelSzczepaniak/WordEmbeddings/blob/master/WordEmbeddings.ipynb
我在第 38523 行的开头添加了“<>”,这样就可以找到一个标记。然后我运行
get_embeddings
函数来创建标记及其向量的字典。最后我跑了:
word_NN("<>", dict_glove_embs)
并得到上面报告的结果。