你有我自己的语料库,我训练了几个Word2Vec模型。对彼此进行评估并选择最佳方法的最佳方法是什么? (显然不是手动 - 我正在寻找各种措施)。
值得注意的是,嵌入是针对项目而不是单词,因此我不能使用任何现有的基准。
谢谢!
如果您甚至不使用真正的单词来对其他任务(如流行的类比解决方案)进行尝试,则没有通用的方法来评估令牌矢量质量。
如果您有自定义终极任务,则必须设计自己的可重复评分方法。这可能是您实际最终任务的某个子集,或与该最终任务紧密相关。从本质上讲,无论您使用“眼球”的特殊方法,都应该将结果理智化,从每次评估中保存您的判断,以便可以针对迭代模型改进重复运行。
(我需要有关您的数据/项目和最终目标的更多信息,以提出进一步的建议。)
评估word2vec模型的一种方法是开发一组“基础事实”单词。地面实况将代表理想情况下在向量空间中最接近的单词。例如,如果您的语料库与客户服务相关,那么“不满意”和“失望”的向量可能理想地具有最小的欧氏距离或最大余弦相似度。
你创建这个表的基础事实,也许它有200个成对的单词。这200个单词是您所在行业/主题中最重要的配对单词。要评估哪个word2vec模型最好,只需计算每对的距离,做200次,总计距离,最小总距离将是最佳模型。
无论这意味着什么,我都喜欢这种方式比“眼球”方法更好。