PCA之前在不同数据类型上的规范化

问题描述 投票:2回答:1

在运行主成分分析之前,您应该将数据规范化,以避免结果偏差。在正常情况下,这是一项相当简单的任务。我很好奇我应该如何规范化我的数据,其中包含数据集中的多种数据类型。我知道(强烈相信)的一些非常重要。其他我不太确定,但这就是为什么我想在我的数据集上运行PCA。

    0       1       2       3       4    ...
  0.112   'Bob'   68.47   'Right'  9493  ...

像这样的东西,可能有一个没有分类支持的字符串,例如名称。虽然'右'可以枚举为一个类别。

我不确定这是否有必要,但我会感谢一些建议。

python pca
1个回答
3
投票

首先,在没有固有顺序的变量上运行PCA时应该非常小心。如分类数据。

其次,想想将PCA应用于名称之类的东西甚至意味着什么。 PCA适用于具有方向长度的向量。鲍勃的长度是多少以及指向哪个方向?

您可以尝试的一件事是将您的字符串数据转换为N-Grams,这将是完美的向量。另一件要尝试的是应用TF-IDF转换,这也会给你一个向量。

一旦您应用了其中一个转换。你有一个问题,就是在矢量中嵌入了矢量。您可以尝试通过连接和规范化将它们组合到一个向量中。或者你可以放弃PCA并将你的数据集视为张量集合,并应用类似multilinear component analysis的东西,这是PCA对张量的扩展。

请注意,这些方法中的任何一个都需要生成巨型向量,因此您需要拥有大量数据实例才能获得分析中的任何有意义的内容。

© www.soinside.com 2019 - 2024. All rights reserved.