如何使用Apache Beam反序列化Kafka AVRO消息

Question

主要目标是聚合两个Kafka主题，一个压缩的慢速移动数据和另一个每秒接收的快速移动数据。

我已经能够在简单的场景中使用消息，例如KV（Long，String），使用类似于：

PCollection<KV<Long,String>> input = p.apply(KafkaIO.<Long, 
String>read()
.withKeyDeserializer(LongDeserializer.class)
.withValueDeserializer(StringDeserializer.class)

PCollection<String> output = input.apply(Values.<String>create());

但是，当您需要从AVRO反序列化时，这似乎不是方法。我有一个我需要消耗的KV（STRING，AVRO）。

我试图从AVRO模式生成Java类，然后将它们包含在“apply”中，例如：

PCollection<MyClass> output = input.apply(Values.<MyClass>create());

但这似乎不是正确的做法。

是否有任何人可以指出的文档/示例，因此我可以了解如何使用Kafka AVRO和Beam。任何帮助将非常感激。

我更新了我的代码：

import io.confluent.kafka.serializers.KafkaAvroDeserializer;
import org.apache.beam.sdk.Pipeline;
import org.apache.beam.sdk.coders.AvroCoder;
import org.apache.beam.sdk.io.kafka.KafkaIO;
import org.apache.beam.sdk.options.PipelineOptions;
import org.apache.beam.sdk.options.PipelineOptionsFactory;
import org.apache.beam.sdk.values.KV;
import org.apache.beam.sdk.values.PCollection;
import org.apache.kafka.common.serialization.LongDeserializer;

public class Main {

public static void main(String[] args) {

    PipelineOptions options = PipelineOptionsFactory.create();

    Pipeline p = Pipeline.create(options);

    PCollection<KV<Long, Myclass>> input = p.apply(KafkaIO.<Long, String>read()
            .withKeyDeserializer(LongDeserializer.class)
            .withValueDeserializerAndCoder(KafkaAvroDeserializer.class, AvroCoder.of(Myclass.class))
    );

    p.run();

}
}
#######################################################
import org.apache.beam.sdk.coders.AvroCoder;
import org.apache.beam.sdk.coders.DefaultCoder;

@DefaultCoder(AvroCoder.class)
public class Myclass{
String name;
String age;

Myclass(){}
Myclass(String n, String a) {
    this.name= n;
    this.age= a;
}
}

但我现在得到以下错误不兼容的类型：java.lang.Class <io.confluent.kafka.serializers.KafkaAvroDeserializer>无法转换为java.lang.Class <？扩展org.apache.kafka.common.serialization.Deserializer <java.lang.String >>

我必须导入错误的序列化程序？

Answer 1

您可以使用KafkaAvroDeserializer如下：

PCollection<KV<Long,MyClass>> input = p.apply(KafkaIO.<Long, String>read()
.withKeyDeserializer(LongDeserializer.class)
  .withValueDeserializerAndCoder(KafkaAvroDeserializer.class, AvroCoder.of(MyClass.class))

其中MyClass是POJO类生成的Avro Schema。

确保您的POJO类具有注释AvroCoder，如下例所示：

@DefaultCoder(AvroCoder.class)
   public class MyClass{
      String name;
      String age;

      MyClass(){}
      MyClass(String n, String a) {
         this.name= n;
         this.age= a;
      }
  }

Answer 2

我遇到了同样的问题。在此邮件存档中找到了解决方案。 http://mail-archives.apache.org/mod_mbox/beam-user/201710.mbox/%3CCAMsy_NiVrT_9_xfxOtK1inHxb=x_yAdBcBN+4aquu_hn0GJ0nA@mail.gmail.com%3E

在您的情况下，您需要定义自己的KafkaAvroDeserializer，如下所示。

public class MyClassKafkaAvroDeserializer extends
  AbstractKafkaAvroDeserializer implements Deserializer<MyClass> {

  @Override
  public void configure(Map<String, ?> configs, boolean isKey) {
      configure(new KafkaAvroDeserializerConfig(configs));
  }

  @Override
  public MyClass deserialize(String s, byte[] bytes) {
      return (MyClass) this.deserialize(bytes);
  }

  @Override
  public void close() {} }

然后将您的KafkaAvroDeserializer指定为ValueDeserializer。

p.apply(KafkaIO.<Long, MyClass>read()
 .withKeyDeserializer(LongDeserializer.class)
 .withValueDeserializer(MyClassKafkaAvroDeserializer.class) );

Answer 3

将KafkaIO.<Long, String>read()改为KafkaIO.<Long, Object>read()。

如果您查看KafkaAvroDeserializer的实现，它会实现Deserializer：

public class KafkaAvroDeserializer extends AbstractKafkaAvroDeserializer implements Deserializer<Object>

Answer 4

Yohei的回答很好，但我也发现这个有用

import io.confluent.kafka.streams.serdes.avro.SpecificAvroDeserializer;

...

public static class CustomKafkaAvroDeserializer extends SpecificAvroDeserializer<MyCustomClass> {}

...
.withValueDeserializerAndCoder(CustomKafkaAvroDeserializer.class, AvroCoder.of(MyCustomClass.class))
...

其中MyCustomClass是Avro工具的代码。

如何使用Apache Beam反序列化Kafka AVRO消息

问题描述投票：1回答：4

4个回答

最新问题

如何使用Apache Beam反序列化Kafka AVRO消息

问题描述 投票：1回答：4

4个回答

最新问题

问题描述投票：1回答：4