PCA之前在不同数据类型上的规范化

Question

在运行主成分分析之前，您应该将数据规范化，以避免结果偏差。在正常情况下，这是一项相当简单的任务。我很好奇我应该如何规范化我的数据，其中包含数据集中的多种数据类型。我知道（强烈相信）的一些非常重要。其他我不太确定，但这就是为什么我想在我的数据集上运行PCA。

    0       1       2       3       4    ...
  0.112   'Bob'   68.47   'Right'  9493  ...

像这样的东西，可能有一个没有分类支持的字符串，例如名称。虽然'右'可以枚举为一个类别。

我不确定这是否有必要，但我会感谢一些建议。

Answer 1

首先，在没有固有顺序的变量上运行PCA时应该非常小心。如分类数据。

其次，想想将PCA应用于名称之类的东西甚至意味着什么。 PCA适用于具有方向长度的向量。鲍勃的长度是多少以及指向哪个方向？

您可以尝试的一件事是将您的字符串数据转换为N-Grams，这将是完美的向量。另一件要尝试的是应用TF-IDF转换，这也会给你一个向量。

一旦您应用了其中一个转换。你有一个问题，就是在矢量中嵌入了矢量。您可以尝试通过连接和规范化将它们组合到一个向量中。或者你可以放弃PCA并将你的数据集视为张量集合，并应用类似multilinear component analysis的东西，这是PCA对张量的扩展。

请注意，这些方法中的任何一个都需要生成巨型向量，因此您需要拥有大量数据实例才能获得分析中的任何有意义的内容。