流数据重复数据删除中地名词典和链接器的区别

问题描述 投票:0回答:0

我正在使用 dedupe 包,但我无法理解地名词典和链接器之间的区别。我已经阅读了文档,但对我来说似乎有点不清楚。

我已经能够使用 deduper 类计算分辨率,但现在我需要处理流数据。具体来说,我需要将传入数据 N+1 与我现有的集群进行匹配,我不确定是否应该为此目的使用地名词典或链接器。

有人可以提供有关如何使用重复数据删除处理流数据并解释哪个组件最适合此用例的指导吗?另外,我可以同时使用它们吗?

python duplicates streaming record-linkage python-dedupe
© www.soinside.com 2019 - 2024. All rights reserved.