Apache Nifi将小于当前日期的文件移动到新的hdfs文件夹中

问题描述 投票:0回答:1

我正在创建端到端流,以通过对通过Tealium事件流接收的Json文件使用Consume Kafka来将数据消耗到HDFS中。

当前,我已经使用过

Consume Kafka -> Evaluate Json Path -> Jolttransform Json -> Merge Content -> Evaluate Json Path -> Update attribute -> PutHDFS ->MoveHDFS

[要求是将整日假脱机的JSON数据读取到一个引用属性postdate(之前为YYYYMMDDSS时间戳记的隐含时期)的单个文件中,并每天读取数据以合并为单个输出文件,最后按照与POST_DATE字段相关的时间戳,以区分日常文件。

当前日期输出文件夹应仅具有当前日期处理文件,并且所有较早日期的完成输出文件应移至其他文件夹。

[请您帮助我如何在MoveHDFS上进行递归搜索hdfs文件夹,并将不等于当前日期的已完成输出文件移动到另一个文件夹中。

apache-nifi hortonworks-data-platform cloudera-cdh mapr data-ingestion
1个回答
0
投票

当前流运行良好。消费Kafka->评估Json路径-> Jolttransform Json->合并内容->评估Json路径->更新属性-> PutHDFS --->创建合并文件。

完成上述流程后,创建一个单独的流程以接收已处理的合并文件,并使用listhdfs-> fethchdfs-> updateattribute-> puthdfs重新对其进行处理

在listhdfs中,设置文件使用前的最小等待时间。这将使进程可以递归搜索文件,还可以使用updateattribute根据父文件夹重新创建该文件夹,以重新使用进程文件。

© www.soinside.com 2019 - 2024. All rights reserved.