降维创建唯一变量

降维创建唯一变量

问题描述投票：0回答：0

我有一个数据集，其中包含数十个与健康相关的变量：其中一些是定量的（例如“身体质量指数”），其中一些是定性的（例如变量 isDrinking，它取 0（否）和 1（是) 的值作为问题“个人曾经喝酒吗？”的答案。

我正在尝试将所有这些变量简化为一个“全球健康指数”，以量化给定个人的健康状况。

怎么做？

我已经尝试过主成分分析，但我得到的指数并不稳健（意味着许多变量之一的微小变化会导致一个指数的巨大变化）并且解释的方差比不是那么好。

我想试试t-SNE（Stochastic Neighbors Embedding），但是我前几天才发现这个方法，我不确定我的数据是否适合t-SNE？无论如何我都试过了，我想出了一个索引。在 PCA 中，解释的方差比可以帮助我们了解主成分是“好”还是“坏”指标，但是如何评估 t-SNE 的性能呢？

另外，一旦 t-SNE 完成，我将如何获得拟合模型的“参数”，以便如果出现新数据，我将能够在不重新拟合整个新数据集的情况下减少它？

谢谢！

data-science

pca

metrics

unsupervised-learning

dimensionality-reduction