如何在NiFi中将InfluxDB线路协议转换为Parquet

问题描述 投票:0回答:1

我有一个InfluxDB Line Protocol记录通过ConsumeKafka处理器进入NiFi,然后合并为包含10,000条记录的流文件。现在,我想将它们转换为Parquet并存储在HDFS中,最终目的是为最终用户构建Impala表。是否可以通过LineParquet处理器将Line Protocol转换为消耗品,或通过其他方式转换为Parquet文件?

我确实找到了一个自定义的influxlineprotocolreader处理器,但是关于如何使用此处理器的信息很少,也没有示例(我发现),因此我不确定它是否适合此用例。

或者,我可以使用Spark进行转换并编写Parquet文件,但我希望尽可能在NiFi中进行所有操作,尤其是因为我也没有找到很多在Spark中进行此类转换的资源(我是Spark和NiFi的新功能。

apache-kafka apache-nifi parquet influxdb
1个回答
0
投票

在NiFi中,没有什么可以理解InfluxDB线路协议的。您将必须实现将其转换为JSON,Avro等已知格式的内容,然后转到Parquet,或者如果您实现了InfluxDbRecordReader,则可以使用ConvertRecord并与Parquet编写器直接在两个。

© www.soinside.com 2019 - 2024. All rights reserved.