将字符串与前一行进行比较并计算相似性Pandas

问题描述 投票:0回答:1

我们有什么方法可以使用Pandas来计算与列中前一行的字符串相似性?

第1行:商业私人有限公司

第2行:Business Pvt Ltd

第3行:Global Pvt Ltd.

它将比较第1行和第2行,得出一定比例的相似性。如果它大约是90%,则将第2行替换为第1行,依此类推。

结果

第1行:商业私人有限公司

第2行:商业私人有限公司

第3行:Global Pvt Ltd.

string pandas data-cleaning
1个回答
0
投票

这是一个令人惊讶的棘手问题。据推测,您首先按字母顺序对行进行排序 - 但如果拼写错误出现在第一个字母中,会发生什么? “企业私人有限公司”距离“Vusinesses Pte Ltd”还有很长的路要走。

仍然 - 要解决您的问题,您想要结合这两个解决方案:

Find the similarity percent between two strings

Comparing previous row values in Pandas DataFrame

它应该让你有所作为。

© www.soinside.com 2019 - 2024. All rights reserved.