大数据集重复

问题描述 投票:0回答:1

我怀疑我是数据分析新手,我有一个由 17432 行和 7 列组成的大数据集作为一个项目。该列是 sid,sname,sstate,scountry,comid,comname,comstate, comcountry 有很多很多重复的 例如 席德:. 3245.3245.3245 名字:.拉吉。拉吉。拉吉。 科米德:。拉吉。拉吉国际。罗杰.

这是重复的一个例子,这样的例子有很多

如果我选择 id 并重复行,几乎许多数据都会被删除,而且 comname 也会不同 请给我一个解决方案

我想要解决方案

excel data-analysis data-cleaning
1个回答
0
投票

如果我理解正确的话,您正在尝试过滤Excel公式中的重复项(尽管可以通过vba实现)。如下进行一些快速数据清理,

  1. 排序数据:

    • 根据“sid”列对数据进行排序。这会将重复的“sid”值分组在一起。
  2. 创建“切换”列

    • 在我的虚拟示例中,在单元格 K3 中输入
      =A3&B3&E3
      。为所有行复制此公式,这将为所有行创建一个参考 ID(您可以相应地调整参考点)。
    • 在L3中输入
      =IF(K3=K2,1,0)
      。为所有行复制此公式,以检查其上面行的重复项。
  3. 过滤并删除重复项

    • 根据 L 列过滤数据,选择“1”。
    • 根据“检查”列删除重复项。
  4. 汇总数据

    • 现在每个唯一的“sid”都有一行,您可以使用公式来聚合信息。
    • 对于每一列(例如“sname”、“sstate”、“scountry”、“comid”、“comname”、“comstate”、“comcountry”),使用
      VLOOKUP
      INDEX-MATCH
      等公式从中检索信息原始数据集。

此方法利用排序和过滤来处理活动工作表上的数据集。 check 列允许您在继续数据聚合之前识别重复的组。请参阅下面我的快速虚拟示例,

© www.soinside.com 2019 - 2024. All rights reserved.