我们有什么方法可以使用Pandas来计算与列中前一行的字符串相似性?
第1行:商业私人有限公司
第2行:Business Pvt Ltd
第3行:Global Pvt Ltd.
它将比较第1行和第2行,得出一定比例的相似性。如果它大约是90%,则将第2行替换为第1行,依此类推。
结果
第1行:商业私人有限公司
第2行:商业私人有限公司
第3行:Global Pvt Ltd.
这是一个令人惊讶的棘手问题。据推测,您首先按字母顺序对行进行排序 - 但如果拼写错误出现在第一个字母中,会发生什么? “企业私人有限公司”距离“Vusinesses Pte Ltd”还有很长的路要走。
仍然 - 要解决您的问题,您想要结合这两个解决方案:
Find the similarity percent between two strings
Comparing previous row values in Pandas DataFrame
它应该让你有所作为。