当greenplum gpss提交到kafka主题时

问题描述 投票:0回答:2

我正在尝试使用

gpss
(Greenplum Stream Server)将数据从Kafka加载到GreenplumDB。

主要问题是

gpss
实例如何\何时将当前写入偏移量提交到kafka?

现在

gpss
实例不会向kafka提交任何消息,但会处理GreenplumDB中服务表中的当前偏移量。 我的预期行为是:

  1. 使用给定的 group.id 和主题(在 kafka 中是强制的,在 GPS 设置中不是强制的 - 顺便说一句,看起来很奇怪)
  2. 开始消费来自kafka主题的数据
  3. 通过分区跟踪更高的偏移量
  4. 等待 COMMIT 条件发生(COMMIT 是 GPS 作业配置中的设置块)
  5. 使用
    gpfdist
  6. 将批量数据从 kafka 写入外部表
  7. 将分区的最大偏移量提交给kafka
  8. 重复

但现在它无需步骤 n.5 即可工作 有谁知道为什么吗?

第二个问题是 - gpss 使用 group.id 吗? 在 gpss 作业配置中,我发现

PROPERTIES
对应于 kafka 消费者配置属性的块配置

apache-kafka greenplum
2个回答
1
投票

从 1.6.0 版本开始,如果在 yaml 文件中设置了“group.id”,gpss 会将消耗的偏移量提交给 Kafka。之前它只向 Greenplum 的跟踪表提交了偏移量。


0
投票

默认情况下,GPSS 将提交的偏移量写入模式中的表中。您可以在.cfg文件中选择“一致性模式=强”

https://docs.vmware.com/en/VMware-Greenplum-Streaming-Server/1.10/greenplum-streaming-server/kafka-about-offset-mgmt.html

像这样:

承诺: 最小间隔:5000 最大行数:500000 一致性:强 特性: group.id: GPSs

© www.soinside.com 2019 - 2024. All rights reserved.