cosine-similarity 相关问题

余弦相似性是内积空间的两个矢量之间的相似性的度量,其测量它们之间的角度的余弦。它是两个向量之间的流行相似性度量,因为它被计算为两个向量之间的归一化点积,可以用简单的数学运算来计算。

BigQuery-查找N个最近的向量

我有一个bigquery表,其中有一列具有512维向量(浮点数)的重复数据类型。我想运行一个查询,查找N个最相似的向量。就我而言,相似性...

回答 1 投票 0

sklearn linear_kernel产生余弦相似度-内存错误

我正在尝试使用sklearn TfidfVectorizer查找余弦相似度,因为数据量很大,我一直在遇到内存错误tf = TfidfVectorizer(analyzer ='word',ngram_range =(1,3),...] >

回答 1 投票 0

余弦相似度慢

我有一组句子,使用句子编码器将其编码为向量,并且我想找出与传入查询最相似的句子。搜索功能如下:def ...

回答 1 投票 1

如何在具有向量的情况下将关键字聚类或获得关键字相似度

[我有一个Python字典,使用Pickle方法(通过Bert-as-Service和Google的预训练模型)存储为矢量文件,例如:(key)Phrase:(value)Phrase_Vector_from_Bert = woman cloth:1 ....

回答 1 投票 0

如何计算标量和矢量之间的余弦相似?

如何计算在Python标量和矢量之间的余弦相似?我想乘以NGRAM模型的概率输出与预训练word2vec模型的输出来重新排名的...

回答 1 投票 -2

将最相似的余弦排名文档映射回原始列表中的每个相应文档

我无法弄清楚如何将列表中最顶层(#1)最相似的文档映射回原始列表中的每个文档项目。我经历了一些预处理,ngrams,词形还原和TF IDF。然后我 ...

回答 1 投票 0

Spark数据帧中列之间的余弦相似性

我的数据看起来像这样...... + ----------- + -------------------- + |搜索关键词|标题| + ----------- + -------------------- + |红球|大红球| |红球|小...

回答 1 投票 0

检查提交的作业中相似性百分比的最佳算法是什么?

我计划在最后一年建立一个类似于相似性检查器的项目。在该项目中,我计划检查提交的作业之间的相似性百分比,即离线。 ...

回答 1 投票 -3

通过Cosine Similarity,TF-IDF和pyspark在Python中匹配公司名称

我试图将2个列表中的公司名称一起匹配,以检查列表A中的公司是否确实列在列表B中。由于公司名称以各种不同的形式书写,我倾向于......

回答 1 投票 0

Python pandas:查找两列的余弦相似度

假设我在python pandas.DataFrame中有两列:col1 col2 item_1 158 173 item_2 25 191 item_3 180 33 item_4 152 165 item_5 96 108什么是最好的方法......

回答 2 投票 3

Sklearn cosine_similarity在Python中将1D数组转换为2D数组

我正在学习自然语言处理并在Python中使用nltk模块和scikit学习模块。在编写自己的代码之前,我想首先看一下现有代码的工作原理。所以我在网上寻找......

回答 1 投票 0

使用Doc2Vec的句子列表之间的余弦相似度

我是NLP的新手,但是我试图根据语义相似性将句子列表与Python中的另一个句子列表相匹配。例如,list1 = ['他们吃午饭','身高...

回答 1 投票 1

在稀疏矩阵数据的情况下,Python中最快的计算余弦相似度的方法是什么?

给定稀疏矩阵列表,计算矩阵中每列(或行)之间的余弦相似度的最佳方法是什么?我宁愿不迭代n次选择两次。说输入......

回答 9 投票 46

余弦相似度与Okapi BM25有何不同?

我正在使用弹性搜索进行研究。我打算使用余弦相似度,但我注意到它不可用,而是我们将BM25作为默认评分函数。是否有理由......

回答 1 投票 1

内存错误python中的TFIDF余弦相似度

有一个包含项目描述的大型数据集。它包含项目ID和文本描述。可以为描述中的术语的tf_idf值建立余弦相似度矩阵。我的数据集......

回答 1 投票 1

是否有任何解决方案来获得单词列表之间的相似性得分?

我想计算单词列表之间的相似度,例如:import math,re from collections import Counter test = ['address','ip'] list_a = ['identifiant','ip','address','fixe ','......

回答 1 投票 0

将新元素添加到现有余弦相似度矩阵中

我用sklearn.metrics.pairwise计算了cosine_similarity的余弦相似度矩阵。矩阵:2414514 413915 419480 473104 534621 609406 654913 654914 \ 2414514 1.000000 ...

回答 1 投票 0

计算Keras中矢量和矩阵之间的余弦相似度

我有一个矢量作为图层的输入。对于这个向量,我想计算余弦类似于几个其他向量(可以排列在矩阵中)例子(其他向量:c1,c2,c3 ......):...

回答 1 投票 0

余弦相似度输出不同的scipy vs sklearn

我确定我忽略了一些东西,但为什么这些输出会有所不同? scikit从sklearn.metrics.pairwise学习导入cosine_similarity cosine_similarity([[3,5,1]],[[1,2,3]])###输出`数组([...

回答 1 投票 0

如何在gensim中从单词的自定义输入字典中获取类似的单词

我正在研究文档相似性问题。对于每个文档,我检索每个单词的向量(来自预先训练的单词嵌入模型)并对它们求平均值以获得文档向量。一世 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.