我在 Hadoop 集群上使用 h2o(最新版本 3.26.0.10)。我已经从 HDFS 读取了一个镶木地板文件,并对它进行了一些操作,建立了一个模型等。
我已经将一些重要的结果存储在
H2OFrame
中,我希望将其导出到本地存储,而不是 HDFS。有没有办法将此文件导出为镶木地板?
我尝试使用
h2o.exportFile
,文档在这里:http://docs.h2o.ai/h2o/latest-stable/h2o-r/docs/reference/h2o.exportFile.html但是所有的例子都是为了写作。 .csv.我尝试使用带有 .parquet
作为扩展名的文件路径,但没有用。它写了一个文件,但我认为它基本上是一个 .csv,因为它的文件大小与 .csv 相同。
例子:
h2o.exportFile(iris_hf, path = "/path/on/h2o/server/filesystem/iris.parquet")
相关说明,如果我要将我的
H2OFrame
导出到 HDFS 而不是本地存储,是否可以将其写入镶木地板格式?我至少可以将它移动到本地存储。
h2o
从 version 3.38.0.1. 添加了对导出 parquet 文件的支持
您需要将
format
参数设置为"parquet"
。请注意,如果您指定 h2o.exportFile
,parts
将忽略 "parquet"
参数。相反,它根据数据块的数量选择部件的数量。
https://docs.h2o.ai/h2o/latest-stable/h2o-r/docs/reference/h2o.exportFile.html
h2o.exportFile(
data = <your h2oFrame>,
path = "/path/to/exported/parquet/dir",
format = "parquet"
)