在我以前的一个Stack Overflow问题(here)中,我被建议使用Hierarchical Clustering根据汉明距离对列表中包含的字符串进行分组。我发现其他几个海报对Python SciPy包有疑问,特别是与我有类似问题的连接功能(here和here)。
如果我对SciPy的连接函数的理解是正确的,我需要传入一个数组并根据汉明距离指定与聚类的链接。但是,当我尝试在几个字符串的列表上实现它时:
import scipy.cluster.hierarchy as sch
X = [[i] for i in ['apples','applez','appelz','apppel','orange','oranze','oranqg','orangs']]
Z = sch.linkage(X,method='complete',metric='Hamming')
我收到以下错误:
Traceback (most recent call last):
File "C:/Users/nguyenthoh/Desktop/UMI_grouping/scratch_script.py", line 15, in <module>
Z = sch.linkage(X,method='complete',metric='Hamming')
File "C:\Users\User\AppData\Roaming\Python\Python27\site-packages\scipy\cluster\hierarchy.py", line 694, in linkage
y = _convert_to_double(np.asarray(y, order='c'))
File "C:\Users\User\AppData\Roaming\Python\Python27\site-packages\scipy\cluster\hierarchy.py", line 1216, in _convert_to_double
X = X.astype(np.double)
ValueError: could not convert string to float: apples
这显然表明链接的输入需要是一个数字数组,而不是字符串。
有没有办法使用SciPy链接的字符串,或者我是否需要提供带链接的汉明距离函数,以便它可以聚集字符串?
ValueError:无法将字符串转换为float:apples
您需要对分类变量进行标签编码,并将类别列为字符串(这些也可以在python中将数字类型化为字符串)。
在python中,我们有:from sklearn.preprocessing import LabelEncoder.
查看文档并实现它。它会将您的字符串类别标记为每个类别的整数。
例:
代码:le.transform([“tokyo”,“tokyo”,“paris”]) 输出:数组([2,2,1] ......)
然后,您可以将其用于分层/凝聚群集。也许还要检查所有变量是否为数字形式,如int或float。
祝你今天愉快!