Excel 中两个数据集之间的完全外部连接对于 R 中的 PCA 是否安全?

问题描述 投票:0回答:0

编辑:下面我打算使用“内部连接”,而不是外部连接。使用内部连接,“相同”的化学物理测量值将出现在每条蠕虫的几行中。 W.r.t.我仍然想知道这是否会“混淆”下面提到的 PCA/类似分析以及如何解决这个问题。

我有2个数据集:

  • 一个数据集,包含 20 个不同位置的物理化学变量(Fe、Mn、S、P、N、pH、温度……)的测量值。在每个位置每个变量都测量了两次:一次在 2 个不同的土壤样本中(因此每个位置每个变量总共测量 2 次)。以下是其格式化方式的简化示例:

  • 一个测量蠕虫物理特性(重量、长度)和蠕虫数量的数据集。这些蠕虫是从附近/每个测量物理化学变量的位置的土壤中收集/分析的。可以在此处以简化版本查看数据集如何格式化的示例:

所以对于连续变量,我想在 R 中运行 PCA/similar。

数据集在电子表格(CSV 文件)中。在两个电子表格中,都有一个具有共同值(位置)的列来关联两个数据集。共同点是位置。

如果我在 Excel 中使用合并(完整外部 [两个电子表格中的所有行])功能并按位置合并数据,我会得到相同位置的每个蠕虫的相同物理化学测量值,并且我会得到相同的蠕虫测量值出现在每个物理化学测量中。这导致相同的物理化学和蠕虫测量在合并的电子表格中不止一行。这完全符合预期。

当我在 R 中运行 PCA/类似分析时,这会导致问题吗? R 会相信有比实际更多的物理化学测量吗?这个合并的 CSV/电子表格会在运行时弄乱 R 中的 PCA/类似分析吗?

cor
,
ggcorrplot
,
rda
,
RsquareAdj
,
scale(pca$...
,
prcomp
, and similar.

如果是,R的合并功能是不是更安全的选择?

如果推荐替代方法:在 R 中进行 PCA/类似分析的最佳方法是什么?如何做?此处显示了合并结果的简化示例:

r pca
© www.soinside.com 2019 - 2024. All rights reserved.