Apache nifi问题,将数据从json保存到orc

问题描述 投票:2回答:1

我正在使用NIFI jsontoavro-> avrotoorc-> puthdfs。但面临以下问题。

1)单个ORC文件正在HDFS上保存。我没有使用任何压缩。 2)当我尝试访问这些文件时,它们会给出缓冲区内存等错误。

提前感谢您的帮助。

json etl apache-nifi orc
1个回答
4
投票

您应该在ConvertAvroToORC之前将许多Avro记录合并在一起。

您可以通过在ConvertAvroToORC之前使用MergeContent并将模式设置为Avro来完成此操作。

您也可以通过使用MergeContent将JSON合并在一起,然后将合并的JSON发送到ConvertJsonToAvro来完成此操作。

使用PutHDFS附加到已经在HDFS中的ORC文件将不起作用。 HDFS处理器不知道有关数据格式的任何信息,只是将额外的原始字节写入文件,可能会创建一个无效的ORC文件。

© www.soinside.com 2019 - 2024. All rights reserved.