[在PCA图中命名样本

Question

我有一个包含大量数据的PCA图，我想确定哪些样本是异常值。当我使用

geom.ind = c("text")

然后有太多文字，我什么也看不懂。

这里是一个最小的可复制示例。（我已经在tooltip with names in a PCA plot中使用过它，但是答案只能手动操作，并且我确实有一个不错的数据框）

dataframe <- data_frame("c1"=c(78,89,0),"c2"=c(89,89,34),"c3"=c(56,0,4))
row.names(dataframe) <- c("name1","name2","name3")

sub <- PCA(dataframe)

pca <- fviz_pca_ind(sub, pointsize = "cos2", 
             pointshape = 21, fill = "#E7B800",
             repel = TRUE, # Avoid text overlapping (slow if many points)
             geom = c("text","point"), 
             xlab = "PC1", ylab = "PC2",label = row.names(dataframe)
             )

interactive <- ggplotly(pca,dynamicTicks = T,tooltip = c("x","y",label = list))

如您所见，我很想使用ggplotly（）函数来做到这一点，但这不起作用。

我想在我的图中识别样品名称（名称1，名称2，名称3）。如何为一个很好的数据集执行此操作？

非常感谢您

Answer 1

您可以使用以下代码

library(tidyverse)
library("factoextra")
library(plotly)
library(FactoMineR)

dataframe <- data_frame("c1"=c(78,89,0),"c2"=c(89,89,34),"c3"=c(56,0,4))
row.names(dataframe) <- c("name1","name2","name3")

sub <- PCA(dataframe)

pca <- fviz_pca_ind(sub, pointsize = "cos2", 
                    pointshape = 21, fill = "#E7B800",
                    repel = TRUE, # Avoid text overlapping (slow if many points)
                    geom = c("text","point"), 
                    xlab = "PC1", ylab = "PC2",label = c("ind")
)

interactive <- ggplotly(pca,tooltip = c("x","y","colour"))

bggly <- plotly_build(interactive)
bggly$x$data[[1]]$text <- 
  with(pca$data, paste0("name: ", name, 
                        "</br></br>x: ", x, 
                        "</br>y: ", y, 
                        "</br>coord: ", coord, 
                        "</br>cos2: ", cos2, 
                        "</br>contrib: ", contrib))
bggly

[在获得斯特凡·洛朗（StéphaneLaurent）的this post的帮助后。对于第1列作为行名的.csv格式的大型数据集，如果行名不重复，则可以将其读为df <- read.csv("Test_Data.csv", row.names = 1)。

[在PCA图中命名样本

问题描述投票：0回答：1

1个回答

最新问题

[在PCA图中命名样本

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1