查找列中单词的所有变体

问题描述 投票:0回答:0

如何识别column_one中某个词的所有变体,然后在其他column, , columns_two中找到该词的变体时填充一个值?

例如每当发现“PHIADELPHIA”的变体时,用 P 填充

value
列,如果发现“ILLINOIS”的变体,则用 I 填充。

地点 价值
费城
菲亚尔菲亚
菲亚
伊利诺伊州
费城
费城
伊利诺伊州
菲拉
PHILA.
菲拉德
费城
费城
费城
费城
费城
费城
费城
费城
费城
费城
费城
费城

模糊匹配、编辑距离等

输入字符串:

import pandas as pd
import numpy as np

place = ['PHIADELPHIA','PHIALDELPHIA','PHIDELPHIA','illinois','PHIELADELPHIA','PHIILADELPHIA','illinoi','PHILA','PHILA.','PHILAD','PHILADALPHIA','PHILADELPHIA','PHILADELAPHIA','PHILADELHIA','PHILADELHPIA','PHILADELLPHIA','PHILADELPHIA','PHILADELPH','PHILADELPHA','PHILADELPHAI','PHILADELPHI','PHILADELPHIA']
value=[np.nan]*len(place)
df = pd.DataFrame(zip(place,value), columns=["place", "value"])
df
python python-3.x pandas fuzzy-search fuzzywuzzy
© www.soinside.com 2019 - 2024. All rights reserved.