我有一个数据集,其中包含数十个与健康相关的变量:其中一些是定量的(例如“身体质量指数”),其中一些是定性的(例如变量 isDrinking,它取 0(否)和 1(是) 的值作为问题“个人曾经喝酒吗?”的答案。
我正在尝试将所有这些变量简化为一个“全球健康指数”,以量化给定个人的健康状况。
怎么做?
我已经尝试过主成分分析,但我得到的指数并不稳健(意味着许多变量之一的微小变化会导致一个指数的巨大变化)并且解释的方差比不是那么好。
我想试试t-SNE(Stochastic Neighbors Embedding),但是我前几天才发现这个方法,我不确定我的数据是否适合t-SNE?无论如何我都试过了,我想出了一个索引。在 PCA 中,解释的方差比可以帮助我们了解主成分是“好”还是“坏”指标,但是如何评估 t-SNE 的性能呢?
另外,一旦 t-SNE 完成,我将如何获得拟合模型的“参数”,以便如果出现新数据,我将能够在不重新拟合整个新数据集的情况下减少它?
谢谢!