是否可以将 parquet 文件从 h2o on hadoop 写入本地存储?

问题描述 投票:0回答:1

我在 Hadoop 集群上使用 h2o(最新版本 3.26.0.10)。我已经从 HDFS 读取了一个镶木地板文件,并对它进行了一些操作,建立了一个模型等。

我已经将一些重要的结果存储在

H2OFrame
中,我希望将其导出到本地存储,而不是 HDFS。有没有办法将此文件导出为镶木地板?

我尝试使用

h2o.exportFile
,文档在这里:http://docs.h2o.ai/h2o/latest-stable/h2o-r/docs/reference/h2o.exportFile.html但是所有的例子都是为了写作。 .csv.我尝试使用带有
.parquet
作为扩展名的文件路径,但没有用。它写了一个文件,但我认为它基本上是一个 .csv,因为它的文件大小与 .csv 相同。

例子:

h2o.exportFile(iris_hf, path = "/path/on/h2o/server/filesystem/iris.parquet")

相关说明,如果我要将我的

H2OFrame
导出到 HDFS 而不是本地存储,是否可以将其写入镶木地板格式?我至少可以将它移动到本地存储。

r hadoop parquet h2o
1个回答
0
投票

h2o
version 3.38.0.1.

添加了对导出 parquet 文件的支持

您需要将

format
参数设置为
"parquet"
。请注意,如果您指定
h2o.exportFile
parts
将忽略
"parquet"
参数。相反,它根据数据块的数量选择部件的数量。

https://docs.h2o.ai/h2o/latest-stable/h2o-r/docs/reference/h2o.exportFile.html

h2o.exportFile(
  data = <your h2oFrame>,
  path = "/path/to/exported/parquet/dir",
  format = "parquet"
)
© www.soinside.com 2019 - 2024. All rights reserved.