我正在开发一个项目,我正在使用数据集-https://www.kaggle.com/aljarah/xAPI-Edu-Data。我想根据数据集的各种属性(如举手,访问资源,观看的公告等)对学生进行聚类(每个学生表示为索引)。请建议我如何使用DBSCAN实现这一点,如果没有请提出一些技巧通过它我可以做到这一点。我是这个数据科学领域的新手。
谢谢
我试着研究gmm和dbscan。
我想在数据集上进行聚类。
DBSCAN的任何标准实现都将支持多个属性。
当属性具有非常不同的类型时,它主要取决于您决定如何测量相似性。欧几里德距离可能没有意义。但是没有“正确”的方法来做这些,这是你决定如何建模数据。在这个数据集上,不幸的是,它将是相当随意的,因为这些属性没有自然规模。