是否有可能比较两个词嵌入库的相似度分数?

问题描述 投票:0回答:1

在我的研究中,我正在探索一组媒体与另一组媒体相比,是否存在统计学意义上的意识形态偏差。我希望用词嵌入的方法来探索这个问题。

我们以美国和英国的新闻媒体为例。如果我建立一个给定时间段的所有美国媒体文章的语料库和一个同一时期的所有英国媒体文章的单独语料库,分别使用相同的词嵌入算法训练它们(gensim/word2vec/fasttext),用相同的参数集(如窗口和向量大小),是否可以测试在美国语料库中一对词之间得到的余弦相似性是否在统计上显著大于在英国语料库中同一对词之间得到的余弦相似性?

非常感谢您的帮助!在我的研究中,我正在探索美国语料库中一对词之间的余弦相似性是否显著大于英国语料库中一对词之间的余弦相似性。

nlp stanford-nlp gensim word2vec fasttext
1个回答
1
投票

你的目标、方法和你的问题都不清楚。

  • 你的目标是发现任何意识形态的偏见,如果他们存在的话。
  • 你通过比较同一个词嵌入算法(比如说Word2Vec)的两个不同的输出来解决这个问题
  • 你的问题是,是否可以比较两个不同语料库训练出来的两个向量?

不过,我只想回答你的问题。答案是肯定的,当然是可以的。

是否有可能测试>美国语料库中一对词之间的余弦相似性是否在统计上显著大于英国语料库中同一对词之间的余弦相似性?

我个人的做法是。

对于每个语料库

  • 随机得到一个词
  • 取最接近该词的100个词
  • 测距

做一个p检验,以检验同一语料库中的单词之间的相似性差异是否显著。

但请注意,这样做是否真的能达到你的实际目的并不确定。

© www.soinside.com 2019 - 2024. All rights reserved.