levenshtein-distance 相关问题

用于测量两个序列之间的差异量的度量。

计算编辑距离的最有效方法

我刚刚实现了最佳匹配文件搜索算法来查找与字典中的字符串最接近的匹配。对我的代码进行分析后,我发现绝大多数时间都花在了

回答 7 投票 0

编辑距离对称吗?

我得知编辑距离是对称的。当我使用 Google 的 diffMatchPatch 工具计算 Levenshtein 距离(除其他外)时,结果并不意味着 Levensh...

回答 5 投票 0

编辑距离对称吗?

我得知编辑距离是对称的。当我使用 Google 的 diffMatchPatch 工具计算 Levenshtein 距离(除其他外)时,结果并不意味着 Levensh...

回答 5 投票 0

Damerau-Levenshtein 或基于 HMM 的转换器用于拼写纠正?

我正在尝试构建一个拼写校正器,它不仅提供选项列表,而且根据发生的字符替换、删除等类型对它们进行概率排名。 基本上...

回答 1 投票 0

我怎样才能知道Python中2个列表中的巧合。顺序很重要,但是当 1 失败时,其余的不应该失败或者是 0 巧合

我有 2 个 python 列表要比较。 列表1 = ['13.3.风险”,“13.3.1。过程','改变'] list2 = ['更改', '13.3.风险”,“13.3.1。过程'] 我想知道元素的顺序有多精确。 如果我去的话...

回答 1 投票 0

考虑到单词的长度,我们应该允许多少个字符级错误?

使用编辑距离度量,例如由于 Levenshtein-Damerau 编辑距离,单词很容易被标记为其他单词的拼写错误。 然而,构成拼写错误的编辑距离将

回答 1 投票 0

编辑距离,例如 Levenshtein,考虑键盘上的接近度

是否有像Levenshtein这样考虑替换距离的编辑距离? 例如,如果我们考虑单词是否相等,则拼写错误和 tylo 非常接近(p 和 l 是

回答 2 投票 0

基于大量行(>50 000)的模糊匹配删除“几乎重复”的字符串行

我有 50 000 个单词,例如: 添加 加上 鸡 一只鸡 吃鸡 去吃 ... 我想删除与其他线具有高度模糊相似性的线。 那么输出应该是: 添加...

回答 2 投票 0

Damerau - Levenshtein 距离,添加阈值

我有以下实现,但我想添加一个阈值,因此如果结果大于它,则停止计算并返回。 我该怎么办呢? 编辑:这是我的

回答 4 投票 0

R 中编辑距离的自定义替换矩阵

我需要根据用于替换的自定义成本函数来计算两个字符串之间的编辑距离。例如,我想指定用“b”替换“a”与替换“a”不同的成本...

回答 2 投票 0

Python中的高性能模糊字符串比较,使用Levenshtein或difflib

我正在进行临床消息标准化(拼写检查),其中我根据 900,000 字的医学词典检查每个给定的单词。我更关心时间复杂度/性能。 我想要...

回答 2 投票 0

无法在 Windows Python 3.9 上安装 pandas-dedupe

运行 pip install pandas-dedupe,出现以下错误: 我首先尝试手动安装 python-Levenshtein 并在添加时遇到了同样的问题。我能做什么?

回答 2 投票 0

如何知道计算字符串之间的编辑距离所做的操作?

使用 stringdist 函数,我可以计算字符串之间的编辑距离:它计算将一个字符串转换为另一个字符串所需的删除、插入和替换的次数。对于

回答 5 投票 0

如何比较 1 个单词与多个单词并输出编辑分数列表

我有一个表格,可以输入两个单词,然后比较编辑分数,效果很好。 我希望能够将 1 个单词与一串由“,”分隔的单词进行比较。全部...

回答 1 投票 0

确定与给定字符串比较的任何数组值是否具有合格的编辑分数

我想验证是否有因子<= 2 is present in an array. So: in_array("test", $some_array); to something like "check if in array, can have errors if levenshtein f...

回答 2 投票 0

在 PHP 中将 levenshtein 与 in_array 结合使用?

我想验证是否有因子<= 2 is present in an array. So: in_array("test", $some_array); to something like "check if in array, can have errors if levenshtein factor <= 2,...

回答 2 投票 0

根据值与比较字符串的编辑距离对值数组进行排序

我有一个表单,可以将一个单词与多个单词进行比较,并输出一个编辑分数列表。我怎样才能获得这些分数,以便它们按顺序列出,最小的编辑分数第一: $string5 = $_POST["唱歌...

回答 2 投票 0

按顺序列出 Levenshtein 分数 PHP

我有一个表单,可以将一个单词与多个单词进行比较,并输出一个编辑分数列表。我怎样才能获得这些分数,以便它们按顺序列出,最小的编辑分数第一: 我有一个表单,可以将一个单词与多个单词进行比较,并输出一个编辑分数列表。我怎样才能得到这些分数,以便它们按顺序列出,最小的编辑分数第一: <?php $string5 = $_POST["singleword"]; $string6 = $_POST["manywords"]; $array6 = explode(', ',$string6); foreach ($array6 as $derp) { echo $string5, "/", $derp, ": ", levenshtein($string5, $derp), "<br>"; } ?> 输出的列表如下所示: apple/mango: 5 apple/peach: 5 apple/toothpaste: 8 apple/apes: 3 我希望它是这样的: apple/apes: 3 apple/mango: 5 apple/peach: 5 apple/toothpaste: 8 $string5 = $_POST["singleword"]; $string6 = $_POST["manywords"]; $words = array_flip(array_map('trim', explode(',', $string6))); foreach ($words as $key => $value) { $words[$key] = levenshtein($string5, $key); } asort($words); foreach ($words as $key => $value) { echo sprintf('%s / %s: %s<br />', $string5, $key, $value); } 我认为我建议填充一个数组数组,然后对其进行排序。如果所有子数组的大小相同,则第一个元素将被排序,第二个元素将用于打破任何联系。这将有效地创建按 levenshtein ASC 排序的有效负载,然后对 ASC 进行值排序。该脚本的优点之一是修改原始数组而不是填充新数组。此外,由于没有进行关键比较,因此不需要翻转。 代码:(演示) $needle = 'apple'; $haystack = explode(', ', 'mango, peach, toothpaste, apes'); foreach ($haystack as &$v) { $v = [levenshtein($needle, $v), $v]; } sort($haystack); foreach ($haystack as [$lev, $h]) { echo "$needle/$h: $lev\n"; }

回答 2 投票 0

Oracle DB 如何计算非 ASCII 字符的编辑距离和相似度?

我最近一直在使用 Oracle DB,并在评估它们的匹配函数时(在本例中为 EDIT_DISTANCE 和 EDIT_DISTANCE_SIMILARITY,我认为它们实现了非标准化和标准化......

回答 1 投票 0

我怎样才能让这个 LAMBDA 函数接受数组作为输入?

我正在使用此 Lambda 函数来计算两个字符串之间的编辑距离。在 Excel 中,称为 LEV。 =LAMBDA(a,b,[ii],[jj],[arr], 让( i,IF(ISOMITTED(ii),1,ii), ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.