如何检查两个文件名是否相似并选择最新版本

问题描述 投票:0回答:1

我有一个混乱的文件夹结构,其中有很多文件,并且人们随着时间的推移保存了这些文件的许多版本,例如:

Our awesome presentation v0.pptx
our_awesome_presentation v1.pptx
Our_Awesome_Presentation_vF.pptx

我想使用 python 选择其中一个文件并丢弃其余文件。可能有数以万计的此类文件,其中包含数千个独特的文档。我不需要 100% 准确地选择文件,因此我认为对于选择文件来说,查看文件创建日期或上次修改日期就足够了。如果我错过了一些相似的文件(即,如果我选择同一文件的两个版本,认为它们是两个不同的文件),那也没关系。简而言之,我不需要完美,我只是想减小文件夹的大小,同时保留尽可能多的独特信息。

现在我想我需要某种文件名的字符串相似度分数。有什么好的方法可以做到这一点?我可以使用 nltk 之类的东西吗?怎么办?

python nltk
1个回答
0
投票

文件名的相似度分数

首先,以标准形式输入文件名:

    name = name.lower().replace(" ", "_")

类似的事情。

接下来,当您浏览已排序的名称时, 计算公共前缀的长度 介于

current
名称和
previous
名称之间。 对于高于阈值的连续对, 说名称长度的 50%,用它来分组 “相同名称,不同后缀”文件规范在一起。

© www.soinside.com 2019 - 2024. All rights reserved.