在统计和数据挖掘中,k均值聚类是一种聚类分析方法,其目的是将n个观测值划分为k个聚类,其中每个观测值属于具有最近平均值(最小二乘法)的聚类。
我正在浏览k-means维基百科页面。基于该算法,我认为复杂度为O(n * k * i)(n =总元素,k =聚类迭代次数)所以有人可以解释一下这个...
我有两个用于分类的图像数据集:27个图像的损坏巧克力包装161个图像的未损坏的巧克力包装我必须编写一个python分类器来区分和报警...
代码:hadoop jar /home/xnz/local/opt/apache-mahout-distribution-0.13.0/mahout-integration-0.13.0.jar \ org.apache.mahout.clustering.conversion.InputDriver \ -i / user / root / -o / user / root / input / ...
python中的K-Prototypes“IndexError:数组索引太多”
我正在尝试对混合数据(分类和数字)执行k原型聚类。我的输入文件是一个csv,看起来像这样(它包含300000行):未命名:0.1,market,vendor_name,price,...
我正在对一些不同程度的数据点进行聚类,如低,中,高。是否可以将它们转换为数字,如low-1,med-2,hig-3,并应用k表示......
我有两个数组,X和Y,我想用k-means来确定像素在图像X和Y之间的位置变化。我可以简单地说,它们之间有区别并说:哪里是零,不是.. 。
我有一个包含许多列的spark数据帧'mydataframe'。我试图只在两列上运行kmeans:lat和long(纬度和经度),使用它们作为简单值)。我要提取7 ...
我目前正在学习k-means并想在3D矩阵上尝试它,这是我通过2D矩阵的链接。来自sklearn.cluster导入KMeans导入numpy为np X = np.array([[1,2],[...
图由由边/弧连接的节点/顶点组成。通常存在多个子节点组(下面着色)。这些可以是社交网络中的人,项目和购买记录,旅行数据,......
如何减少Prado用于R中大数据的k-means框架中的内存使用?
我试图验证普拉多基于回报相关矩阵的交易策略的k-means框架,如他的论文中所见,使用R表示大量策略,比如1000.他......
如何在CSV文件中的行中找到2个或更多列中最常用的值组合。例如:事件,机架,角色,直流网络,北,移动,非洲网络,东部,移动,亚洲oom,南,桌面,...
我有一个2d np.array有3列,来自4类注册。我想在这个3列np数组上实现K-means来测试它是否可以自动聚集到4个3维...
Python:如何使用k-means算法比较聚类之间的相似性?
我对同一事件有两个观察结果。假设X和Y.我想有nc簇。我正在使用sklearn进行聚类。 x = KMeans(n_clusters = nc).fit_predict(X)y = KMeans(n_clusters = nc)...
如何将群集标签列添加回原始dataframe-python中,以进行监督学习
我的数据框中有一列包含Url信息。它有1200多个独特的价值观。我想使用文本挖掘从这些值生成功能。我用tfidfvectorizer来生成......
获取最接近数据的索引指向K中的质心表示在MATLAB中进行聚类
我在MATLAB中使用K-means进行一些聚类。您可能知道用法如下:[IDX,C] = kmeans(X,k)其中IDX给出X中每个数据点的簇号,C给出...
我一直在使用scipy的k-means已经有一段时间了,我对它在可用性和效率方面的工作方式感到非常高兴。但是,现在我想探索不同的k-means变体,......
家伙。我还是一个尝试学习ML的初学者,所以请原谅我这么简单的问题。我有一个来自UCI ML Repository的数据集。所以,开始应用各种无监督算法,其中...
使用带有Silhouette功能的k-means聚类时如何选择k?
我一直在研究关于k-means聚类的问题,还有一个不太明显的问题是Silhouette函数真正告诉我的是什么?我知道它表明适当的k应该是detemine但我不能...
使用joblib.dump保存模型文件后,是否可以获取模型中使用的功能/变量列表?
我已经构建了scikit-learn kmeans模型,并使用joblib.dump命令将其转储。现在我想用新的数据集测试它,但是不能回忆起构建中使用的功能。谁能......
ValueError:标签数为1.使用silhouette_score时,有效值为2到n_samples - 1(包括)
我正在尝试计算轮廓分数,因为我找到了要创建的最佳簇数,但得到的错误是:ValueError:标签数为1.有效值为2到n_samples - 1(...