将相似的文本分组?

问题描述 投票:0回答:1

我有一份土地所有者列表,突出显示的内容都显示类似的文本字符串。这些突出显示的分组是相同的土地所有者,但文本字符串略有不同。我在想也许 B 列可以有一个像下面所示的索引?

有什么方法可以使用公式或其他东西来对它们进行分组吗?我无法真正进行模糊查找,因为我没有可以匹配它们的名称列表。我已经尝试过使用 Tableau Prep 的发音分组之类的东西,但这弊大于利。

这里有什么选择吗?

excel excel-formula fuzzy-search fuzzy-comparison
1个回答
0
投票

据我所知,版本 16.8 似乎对应于 Mac 上的 Excel 2019,这意味着您处于辅助列领域:

C2中的

数组公式

=MATCH(1,LEN(SUBSTITUTE(MID(A2,ROW(A$1:INDEX(A:A,LEN(A2))),5)," ",""))-5+(CODE(SUBSTITUTE(MID(A2,ROW(A$1:INDEX(A:A,LEN(A2))),5)," ",""))>64),0)
B2 中的正则公式为

=MID(A2,C2,FIND(" ",A2,C2)-C2)
C 列中的公式返回 A 列中名称的第一个 5 个字符子字符串的位置,以实际字母开头。要跟踪不同长度的子字符串,您需要将 3 个 

5

 实例替换为另一个数字(例如,将 3 x 
5
 更新为 3 x 
4
 将返回几乎相同的结果,区别在于 
B10
然后会显示
EAST)。

B 列中的公式只是返回名称中的子字符串,从 C 列中指示的位置开始,直到 C 列中的位置之后的第一个空格字符,因此如果没有空格,则会返回错误在 5 个字符的子字符串之后(不太可能,对于所有 LLC 条目)。

正如我的评论中所述,这可能不适用于您的

所有数据,但如果您将任何错误排序到最后,您可以更新 C 列中的公式以跟踪不同长度的子字符串,然后对任何剩余的子字符串进行排序错误到最后等等

© www.soinside.com 2019 - 2024. All rights reserved.