如何评估Word2Vec模型

问题描述 投票:0回答:2

你有我自己的语料库,我训练了几个Word2Vec模型。对彼此进行评估并选择最佳方法的最佳方法是什么? (显然不是手动 - 我正在寻找各种措施)。

值得注意的是,嵌入是针对项目而不是单词,因此我不能使用任何现有的基准。

谢谢!

python nlp word2vec embedding word-embedding
2个回答
1
投票

如果您甚至不使用真正的单词来对其他任务(如流行的类比解决方案)进行尝试,则没有通用的方法来评估令牌矢量质量。

如果您有自定义终极任务,则必须设计自己的可重复评分方法。这可能是您实际最终任务的某个子集,或与该最终任务紧密相关。从本质上讲,无论您使用“眼球”的特殊方法,都应该将结果理智化,从每次评估中保存您的判断,以便可以针对迭代模型改进重复运行。

(我需要有关您的数据/项目和最终目标的更多信息,以提出进一步的建议。)


0
投票

评估word2vec模型的一种方法是开发一组“基础事实”单词。地面实况将代表理想情况下在向量空间中最接近的单词。例如,如果您的语料库与客户服务相关,那么“不满意”和“失望”的向量可能理想地具有最小的欧氏距离或最大余弦相似度。

你创建这个表的基础事实,也许它有200个成对的单词。这200个单词是您所在行业/主题中最重要的配对单词。要评估哪个word2vec模型最好,只需计算每对的距离,做200次,总计距离,最小总距离将是最佳模型。

无论这意味着什么,我都喜欢这种方式比“眼球”方法更好。

© www.soinside.com 2019 - 2024. All rights reserved.