相似性度量量化了对象(例如文档,特征向量)的相似程度。
我有一组关键字,在这些关键字上运行foreach循环,并将每个元素与特定的搜索词匹配。例如我有像Array([0] =>波尔卡连衣裙[1] =>波尔卡衣服[2] =&...
修复近重复项时,如何在Postgres 9.6+中对模糊匹配记录进行分组
我们有一个错误地将重复项插入数据库的应用程序。结果,我被要求找出重复项并将它们分组在一起进行审查。大概有...
我有一个用户表,该表具有以下字段id,first_name,last_name,street_address,城市,州,邮政编码,公司,user_identifier,created_at,update_at。这个表有很多...
按相似结果分组,并在每组的其他变量中检查是否为TRUE / FALSE
我有一个来自不同公司的数据集,这些公司在不同的博客上发表了文章(但它们使用相似的名称,但并不总是相同的),我想通过相似的结果对它们进行分组,并计算出...
具有超过300万个姓名(姓名,姓氏,父亲姓名)的行的表。我希望检查相似度超过90%。我使用了许多模糊算法,还使用了utl_match相似性(jaro_winkler,...
[在Python3和熊猫中,我具有数据框:df_projetos_api_final.info() ...
我正在尝试从我的正确单词词典(例如查找表)中找到拼写错误的单词的接近匹配。我有一个代码,可以将1个单词与一个查找字典进行比较,然后选择...
我知道在这个/不同的论坛中可能会问过类似的问题,但是我觉得我的要求有所不同。我有2列数据帧,如下所示:Verbatim ...
我想在Numpy中计算矩阵X和Y之间的不相似矩阵S:import numpy as np N_x = 3; N_y = 5; d = 2 X = np.random.randn(N_x,d)Y = np.random.randn(N_y,d)使得S为N -...
比较两个矩阵以查看它们是否相似的最佳方法是什么?我有两个12 * 12矩阵,其中值是成对的单词之间的余弦相似度。我想计算...
例如,我有一堆公司名称要匹配,我想匹配以下字符串:A&A PRECISION与A&A PRECISION ENGINEERING但是,我几乎使用了所有相似度:例如Hamming ...
我们如何使用python找到两个不同的n-gram之间的上下文相似性?
例如,假设我们有两个单词“ great”和“ very good”,它们在上下文上彼此相似,但是它们是不同的n-gram(“ great”是unigram,而“ very good”是bigram)。我需要一些...
我正在尝试编写一个可以在大型数据库(700k张图像)中找到相似图像(邮票)的应用程序。我尝试使用resnet进行特征提取,并使用LSH进行快速kdtree,但效果不佳...
考虑如下所示的数据框df = pd.DataFrame({'问题':['你在做什么?','你今晚在做什么?','你现在在做什么?','你叫什么名字?','您的昵称是什么?','什么...
我正在寻找一种将专有名词表示为向量和正确拼写错误的方法。例如,我有一个专有名词数据库(例如James,Rebecca,Michael等),并且希望...
我使用Google Vision API标记了很多对象图像。使用这些标签(在此处显示在pickle中),我创建了一个标签共现矩阵(在此处以numpy数组下载)。矩阵的大小为...
尝试使用LDA模型在Gensim中获得相似性时出现错误“错误的值太多,无法解包”
我基本上使用的是Anaconda环境python 3.7,gensim 3.8.0。我将数据作为一个数据帧放在测试和训练集中,它们都具有以下结构:X_test和Xtrain ...
我的问题是,我要创建一种方法来为30个人中的每个人确定一个得分,该得分代表该人的口味与程序用户的口味有多相似。存储这些...
假设我有以下向量x数组,其中可能的值为0,1,2:以num x的形式导入numpy x = np.random.randint(0,3,(10,5),dtype = np。 int8)我想对所有...进行相似性匹配...
我如何检查特定列的任何行是否具有相似的值。在这种情况下类似456的示例类似于654
我从一个示例数据帧开始,并尝试检查该列中所有行集合的值之和是否相同#### load data ### import pandas as pd df = pd.DataFrame(iris .data,columns = ...