将具有错误拼写,间距差异等的相似字符串进行分组

问题描述 投票:2回答:1

我有大约一百万个雇主姓名的数据集。这些名称来自自由格式的文本字段,因此它们包括拼写错误和输入方式的变化(例如“ Amazon” ..“ Amzaon” ..“ Amazon.com” ..“ Amazon Web Services” ..“ AWS ”)。

[我想要么将这100万人分组,要么使我对数据集中有多少个唯一雇主有某种准确的认识,或者B)能够找到任何给定雇主的所有变体。

到目前为止,我一直在使用Tableau中的数据,然后过滤“雇主名称”并搜索我能想到的名称的所有变体。但这很乏味,我敢肯定我会遗漏很多。

我还在Excel中使用了模糊加载项,但在拼写错误,特殊字符方面效果不佳...

excel vba tableau
1个回答
0
投票

[尝试使用Tableau Prep Builder-Tableau Creator许可证随附的配套工具。它具有仅为这些问题而设计的组功能。

在Prep Builder中,您只需要连接到数据,添加一个清洁步骤,然后将一个组添加到您的清洁步骤。

© www.soinside.com 2019 - 2024. All rights reserved.