准备用于列中具有唯一值的k均值聚类的股票数据

问题描述 投票:-1回答:2

我有达卡证券交易所的数据合计359股

enter image description here

我想对此进行预处理,以进行k均值聚类。但是符号的非唯一性我无法准备数据。

pandas machine-learning cluster-analysis k-means
2个回答
0
投票

要使用数据点进行聚类,您可以忽略symbol以及Date是必需的。

您可以通过使用iloc[row_index, col_index]进行索引来指定列(功能)。为了使数据可用于K均值聚类,可以使用values从数据框中提取值。这会将值提取到numpy数组,该数组可用于进一步的聚类。

# Sample data
>>> data
        Open  High  Low  Close  Volume
Symbol                                
a          0     0    0      0       0
b         10     1    1      1      10
c         20     2    2      2      20

# Selecting features and extracting values
# '1:' ignores the first column
>>> data.iloc[:, 1:].values
array([[ 0,  0,  0,  0],
       [ 1,  1,  1, 10],
       [ 2,  2,  2, 20]])

0
投票

您可能希望枢轴数据在每个代码中有一行。

但是我怀疑在此数据上使用k均值是否有意义。如果您对结果很认真,则需要一种可以处理缺失值,一系列不同长度的方法,并且可以将交易量用作权重而非属性。如果您只是天真地将数据输入k均值,就可以按交易量对股票进行简单分类。

首先确定您的数学目标函数。确保它可以解决您的问题。然后决定如何表示您的数据,以便算法can对此进行优化。

© www.soinside.com 2019 - 2024. All rights reserved.