降维创建唯一变量

问题描述 投票:0回答:0

我有一个数据集,其中包含数十个与健康相关的变量:其中一些是定量的(例如“身体质量指数”),其中一些是定性的(例如变量 isDrinking,它取 0(否)和 1(是) 的值作为问题“个人曾经喝酒吗?”的答案。

我正在尝试将所有这些变量简化为一个“全球健康指数”,以量化给定个人的健康状况。

怎么做?

我已经尝试过主成分分析,但我得到的指数并不稳健(意味着许多变量之一的微小变化会导致一个指数的巨大变化)并且解释的方差比不是那么好。

我想试试t-SNE(Stochastic Neighbors Embedding),但是我前几天才发现这个方法,我不确定我的数据是否适合t-SNE?无论如何我都试过了,我想出了一个索引。在 PCA 中,解释的方差比可以帮助我们了解主成分是“好”还是“坏”指标,但是如何评估 t-SNE 的性能呢?

另外,一旦 t-SNE 完成,我将如何获得拟合模型的“参数”,以便如果出现新数据,我将能够在不重新拟合整个新数据集的情况下减少它?

谢谢!

data-science pca metrics unsupervised-learning dimensionality-reduction
© www.soinside.com 2019 - 2024. All rights reserved.