为什么H2O自动编码器对一个数据集这么慢，而对另一个数据集却不慢？

Question

当我在大约相同大小的两个不同数据集上运行H2O自动编码器时（请参见下文），我可以在5分钟内完成一个数据集（A），而另一个数据集（B）确实很慢。数据集B仅花费1％的时间就花费了30分钟以上。我尝试重新启动R会话和H2O几次，但这没有帮助。对于两个数据集，模型中的参数（或系数）数量大致相同。

数据集A：大小为4 * 1,000,000（<5分钟）

数据集B：大小为8 * 477,613（非常慢）

下面的模型用于两个数据集：

model.dl = h2o.deeplearning(x = x, training_frame = data.hex, autoencoder = TRUE, activation = "Tanh", hidden = c(25,25,25), variable_importances = TRUE)

两个数据集的H2O群集内存均为15GB。使用同一台计算机（OS X 10.14.6，16 GB内存）。以下是有关H2O和R的版本的一些信息。

H2O cluster version:        3.30.0.1
H2O cluster total nodes:    1
H2O cluster total memory:   15.00 GB
H2O cluster total cores:    16
H2O cluster allowed cores:  16
H2O cluster healthy:        TRUE
R Version:                  R version 3.6.3 (2020-02-29)

请让我知道是否可以提供其他信息来解决此问题。

Answer 1

此问题已解决。

问题是，在模型运行期间，进行一次热编码后，数据集B的列更多。请参阅下面。

数据集A：

有4个分类特征。这些分类特征的唯一值数量分别为12、14、25和10。

数据集B：

有7个分类特征和1个数字特征。分类特征的唯一值的数量分别是17、49、52、85、5032（！），18445（!!）和392124（!!!）。这解释了为什么它这么慢。

为什么H2O自动编码器对一个数据集这么慢，而对另一个数据集却不慢？

问题描述投票：1回答：1

1个回答

最新问题

为什么H2O自动编码器对一个数据集这么慢，而对另一个数据集却不慢？

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1