如何识别column_one中某个词的所有变体,然后在其他column, , columns_two中找到该词的变体时填充一个值?
例如每当发现“PHIADELPHIA”的变体时,用 P 填充
value
列,如果发现“ILLINOIS”的变体,则用 I 填充。
地点 | 价值 |
---|---|
费城 | |
菲亚尔菲亚 | |
菲亚 | |
伊利诺伊州 | |
费城 | |
费城 | |
伊利诺伊州 | |
菲拉 | |
PHILA. | |
菲拉德 | |
费城 | |
费城 | |
费城 | |
费城 | |
费城 | |
费城 | |
费城 | |
费城 | |
费城 | |
费城 | |
费城 | |
费城 |
模糊匹配、编辑距离等
import pandas as pd
import numpy as np
place = ['PHIADELPHIA','PHIALDELPHIA','PHIDELPHIA','illinois','PHIELADELPHIA','PHIILADELPHIA','illinoi','PHILA','PHILA.','PHILAD','PHILADALPHIA','PHILADELPHIA','PHILADELAPHIA','PHILADELHIA','PHILADELHPIA','PHILADELLPHIA','PHILADELPHIA','PHILADELPH','PHILADELPHA','PHILADELPHAI','PHILADELPHI','PHILADELPHIA']
value=[np.nan]*len(place)
df = pd.DataFrame(zip(place,value), columns=["place", "value"])
df