我有一个InfluxDB Line Protocol记录通过ConsumeKafka处理器进入NiFi,然后合并为包含10,000条记录的流文件。现在,我想将它们转换为Parquet并存储在HDFS中,最终目的是为最终用户构建Impala表。是否可以通过LineParquet处理器将Line Protocol转换为消耗品,或通过其他方式转换为Parquet文件?
我确实找到了一个自定义的influxlineprotocolreader处理器,但是关于如何使用此处理器的信息很少,也没有示例(我发现),因此我不确定它是否适合此用例。
或者,我可以使用Spark进行转换并编写Parquet文件,但我希望尽可能在NiFi中进行所有操作,尤其是因为我也没有找到很多在Spark中进行此类转换的资源(我是Spark和NiFi的新功能。
在NiFi中,没有什么可以理解InfluxDB线路协议的。您将必须实现将其转换为JSON,Avro等已知格式的内容,然后转到Parquet,或者如果您实现了InfluxDbRecordReader,则可以使用ConvertRecord并与Parquet编写器直接在两个。