我怀疑我是数据分析新手,我有一个由 17432 行和 7 列组成的大数据集作为一个项目。该列是 sid,sname,sstate,scountry,comid,comname,comstate, comcountry 有很多很多重复的 例如 席德:. 3245.3245.3245 名字:.拉吉。拉吉。拉吉。 科米德:。拉吉。拉吉国际。罗杰.
这是重复的一个例子,这样的例子有很多
如果我选择 id 并重复行,几乎许多数据都会被删除,而且 comname 也会不同 请给我一个解决方案
我想要解决方案
如果我理解正确的话,您正在尝试过滤Excel公式中的重复项(尽管可以通过vba实现)。如下进行一些快速数据清理,
排序数据:
创建“切换”列
=A3&B3&E3
。为所有行复制此公式,这将为所有行创建一个参考 ID(您可以相应地调整参考点)。=IF(K3=K2,1,0)
。为所有行复制此公式,以检查其上面行的重复项。过滤并删除重复项
汇总数据
VLOOKUP
或 INDEX-MATCH
等公式从中检索信息原始数据集。此方法利用排序和过滤来处理活动工作表上的数据集。 check 列允许您在继续数据聚合之前识别重复的组。请参阅下面我的快速虚拟示例,