标识多个电子邮件文档中的重复段落(样板)

问题描述 投票:0回答:1

我已经开始学习使用R和Python进行文本挖掘和自然语言处理。最近,我试图执行一些基本任务,例如:(1)在一组文档(电子邮件文档)中使用的最常用术语,以及(2)聚类。 “问题”带有一些重复的段落,例如免责声明,电子邮件签名等;因为它们给我的结果增加了一些干扰。...是否可以在文档集中识别样板或重复的段落?为了在预处理任务期间将其删除。

python r nlp boilerplate
1个回答
0
投票

测量文档的相似性是一个巨大的话题,也是一个活跃的研究领域。识别boilerplate的方法很多,但没有一种是完美的。

但是请检查wydyr程序包功能。将文档分为段落大小的部分(或更小)。使用pairwise_countpairwise_cor来获取例如文件的开头和结尾部分。

还可以得到Silge和Robinson的带有R的文本挖掘的副本;请注意第4章。

© www.soinside.com 2019 - 2024. All rights reserved.