[我们有大约1.4万个手动测试用例(在Excel文件中),我们没有足够的质量检查小组来阅读,并确保没有重复测试用例。
当我使用Google进行搜索时,我没有找到满足上述要求的任何开源工具。
只需要一种软件建议或更简单的方法来从Excel中查找和删除重复的案例。
注:在某种意义上是重复的,不是确切的词,但是,案例具有相同的含义。
几周前,我在寻找重复项方面遇到了问题,而python中的this python deduplication library帮了我很多忙。您可以训练一个重复分类器,训练示例是直接生成的:库要求您告诉一些示例是否重复。用法相对容易:
def create_data(dataList):
data = {}
for i in range(len(dataList)):
data[i]= {'text': text}
return data
import dedupe
#if you have multiple fields for each sample, you can add them here
variables = [
{'field' : 'text', 'type': 'String'}
]
#you can load your data from csv into a list, then create dedupe data by calling create_data
data_d = create_data(yourData)
deduper = dedupe.Dedupe(variables)
deduper.sample(data_d, 15000)
dedupe.consoleLabel(deduper)
#starts the training
deduper.train()
#calculates a threshold when to classify as duplicate
threshold = deduper.threshold(data_d, recall_weight=1)
#get all the clusters, all the deduplicated samples
clustered_dupes = deduper.match(data_d, threshold)
培训看起来像这样:
文本:测试XY功能
文本:XY功能需要测试
0/10正,0/10负
这些记录是否指的是同一件事?(y)es /(n)o /(u)nsure /(f)完成