我有大约一百万个雇主姓名的数据集。这些名称来自自由格式的文本字段,因此它们包括拼写错误和输入方式的变化(例如“ Amazon” ..“ Amzaon” ..“ Amazon.com” ..“ Amazon Web Services” ..“ AWS ”)。
[我想要么将这100万人分组,要么使我对数据集中有多少个唯一雇主有某种准确的认识,或者B)能够找到任何给定雇主的所有变体。
到目前为止,我一直在使用Tableau中的数据,然后过滤“雇主名称”并搜索我能想到的名称的所有变体。但这很乏味,我敢肯定我会遗漏很多。
我还在Excel中使用了模糊加载项,但在拼写错误,特殊字符方面效果不佳...
[尝试使用Tableau Prep Builder-Tableau Creator许可证随附的配套工具。它具有仅为这些问题而设计的组功能。
在Prep Builder中,您只需要连接到数据,添加一个清洁步骤,然后将一个组添加到您的清洁步骤。