Python中的SciPy分层字符串聚类?

问题描述 投票:2回答:1

在我以前的一个Stack Overflow问题(here)中,我被建议使用Hierarchical Clustering根据汉明距离对列表中包含的字符串进行分组。我发现其他几个海报对Python SciPy包有疑问,特别是与我有类似问题的连接功能(herehere)。

如果我对SciPy的连接函数的理解是正确的,我需要传入一个数组并根据汉明距离指定与聚类的链接。但是,当我尝试在几个字符串的列表上实现它时:

import scipy.cluster.hierarchy as sch
X = [[i] for i in ['apples','applez','appelz','apppel','orange','oranze','oranqg','orangs']]
Z = sch.linkage(X,method='complete',metric='Hamming')

我收到以下错误:

Traceback (most recent call last):
File "C:/Users/nguyenthoh/Desktop/UMI_grouping/scratch_script.py", line 15, in <module>
Z = sch.linkage(X,method='complete',metric='Hamming')
File "C:\Users\User\AppData\Roaming\Python\Python27\site-packages\scipy\cluster\hierarchy.py", line 694, in linkage
y = _convert_to_double(np.asarray(y, order='c'))
File "C:\Users\User\AppData\Roaming\Python\Python27\site-packages\scipy\cluster\hierarchy.py", line 1216, in _convert_to_double
X = X.astype(np.double)
ValueError: could not convert string to float: apples

这显然表明链接的输入需要是一个数字数组,而不是字符串。

有没有办法使用SciPy链接的字符串,或者我是否需要提供带链接的汉明距离函数,以便它可以聚集字符串?

python string scipy hierarchical-clustering
1个回答
-1
投票

ValueError:无法将字符串转换为float:apples

您需要对分类变量进行标签编码,并将类别列为字符串(这些也可以在python中将数字类型化为字符串)。

在python中,我们有:from sklearn.preprocessing import LabelEncoder.

查看文档并实现它。它会将您的字符串类别标记为每个类别的整数。

例:

代码:le.transform([“tokyo”,“tokyo”,“paris”]) 输出:数组([2,2,1] ......)

然后,您可以将其用于分层/凝聚群集。也许还要检查所有变量是否为数字形式,如int或float。

祝你今天愉快!

© www.soinside.com 2019 - 2024. All rights reserved.