我使用什么工具来序列化/反序列化存储在 Kafka 主题中的 Avro 消息,其模式已使用 Pyspark 在模式注册表中注册?

问题描述 投票:0回答:0

我从 MySql 数据库中捕获了一些更改数据,使用 Avro 转换器将其序列化并将其存储在 Kafka 主题中。现在我正在尝试从 Kafka 读回 Avro 序列化数据。我可以轻松获取序列化数据,但现在我需要反序列化它。我该怎么做?

注意:我正在使用 Pyspark 编写我的 spark 代码。我正在创建一个 readingStream 以从 Kafka 主题实时流式传输数据。

我找到了一些用于 Spark(scala 库)的工具,但是 Pyspark 的相同解决方案有点复杂。

我认为使用 Abris https://github.com/AbsaOSS/ABRiS 是一个不错的选择,因为它支持 python 版本的 spark,但我似乎无法正确理解这个 scala 编写的库在 Pyspark(Python)中的集成。这有点复杂,因为我没有在 Python 中使用过非 Python 编写的库。

有人对此用例有其他更好的选择吗?也许是另一个工具。或者任何人都可以让我了解 Pyspark 的 Abris 集成。谢谢你! https://github.com/AbsaOSS/ABRiS/blob/master/documentation/python-documentation.md

pyspark apache-kafka deserialization avro
© www.soinside.com 2019 - 2024. All rights reserved.