在我的研究中,我正在探索一组媒体与另一组媒体相比,是否存在统计学意义上的意识形态偏差。我希望用词嵌入的方法来探索这个问题。
我们以美国和英国的新闻媒体为例。如果我建立一个给定时间段的所有美国媒体文章的语料库和一个同一时期的所有英国媒体文章的单独语料库,分别使用相同的词嵌入算法训练它们(gensim/word2vec/fasttext
),用相同的参数集(如窗口和向量大小),是否可以测试在美国语料库中一对词之间得到的余弦相似性是否在统计上显著大于在英国语料库中同一对词之间得到的余弦相似性?
非常感谢您的帮助!在我的研究中,我正在探索美国语料库中一对词之间的余弦相似性是否显著大于英国语料库中一对词之间的余弦相似性。
你的目标、方法和你的问题都不清楚。
不过,我只想回答你的问题。答案是肯定的,当然是可以的。
是否有可能测试>美国语料库中一对词之间的余弦相似性是否在统计上显著大于英国语料库中同一对词之间的余弦相似性?
我个人的做法是。
对于每个语料库
做一个p检验,以检验同一语料库中的单词之间的相似性差异是否显著。
但请注意,这样做是否真的能达到你的实际目的并不确定。