用于在苏打水中包含300列(6 GB)的大型数据集的运行coxph模型

问题描述 投票:0回答:1

[我们正在尝试使用h2o运行Coxph模型,对具有300 GB列的6 GB的大型数据集使用Rsparkling,无论我们采用哪种配置进行火花处理,都会遇到内存问题。

按照h2o,我们应该只有4倍于数据大小的较大集群,但是我们甚至将128GB的4个工作节点与128个主节点结合在一起。但是仍然存在其提出的问题。

请帮助我们使用当前数据集选择运行水循环所需的火花配置。我们能够为50,000条记录运行相同的代码。

我们有300列用于X和2对交互项。偏移列和权重。

您可以在此处找到示例代码,但没有300列。我不知道如何提供完美的输入文件和完整的代码来复制问题。如果您希望查看包含300列的实际代码,请告诉我。

`# Load the libraries used to analyze the data
 library(survival)
 library(MASS)
 library(h2o)


 # Create H2O-based model
 predictors <- c("HasPartner", "HasSingleLine", "HasMultipleLines",
            "HasPaperlessBilling", "HasAutomaticBilling", 
 "MonthlyCharges",
            "HasOnlineSecurity", "HasOnlineBackup", "HasDeviceProtection",
            "HasTechSupport", "HasStreamingTV", "HasStreamingMovies")

 h2o_model <- h2o.coxph(x = predictors,
                   event_column = "HasChurned",
                   stop_column = "tenure",
                   stratify_by = "Contract",
                   training_frame = churn_hex)

  print(summary(h2o_model))'
apache-spark-sql h2o sparkling-water
1个回答
0
投票

全部取决于停止列和分层列的基数。我将只尝试一个具有32-64GB内存的节点。

请分享有关数据集的详细信息。

© www.soinside.com 2019 - 2024. All rights reserved.