Apache Flink是一个用于可扩展批处理和流数据处理的开源平台。 Flink在一个系统中支持批量和流分析。分析程序可以用Java和Scala中简洁优雅的API编写。
我在使用 Flink SQL 自动上传模式而不是使用我已经上传的模式时遇到了一些问题。这是我的场景: 我有一个 Kafka 主题“输入”,我想要......
Apache Flink S3 ListBucket API 调用
我们使用AWS S3来存储flink保存点。理想情况下,flink 主要使用 GetObject 和 PutObject 操作,但在我们的例子中,ListBucket 是最常被调用的 API...
为什么 AWS 托管的 Apache Flink 停留在 1.15.2 版本?
为什么 AWS 不将其托管的 Flink 集群更新到最新的 Flink 版本? 是否有升级时间表?如果没有,是否意味着他们不认为这是一项有吸引力的服务? 有没有...
在没有检查点的情况下从kafka消费时是否可以实现至少一次处理保证? 接收器接受重复的消息。 这里唯一的要求是不丢失数据。 L...
了解 Flink Interval Joins 中大窗口的事件发射时序
间隔连接使用公共密钥连接两个流的元素,其中流 B 的元素的时间戳位于流 A 中元素的时间戳的相对时间间隔内。 我很确定...
我希望使用自定义标签发布/公开指标,自定义标签事先未知,我们只能在运行时知道。例如,使用千分尺我们可以执行以下操作 指标。
Flink SQL REGEXP_REPLACE 不支持捕获组
鉴于: 选择 REGEXP_REPLACE('ERR1,ERR2', '([^,]+)', 'AA$1AA'); 结果是: AA$1AA,AA$1AA 它是否完全受支持(文档中未提及)或者我可能错误地使用了它? 预先感谢
所以我试图创建一个数据流,以便当一个元素进入流时,它将在传入元素之前最多 12 小时处理每个数据点,然后输出结果。 ...
Apache Flink 中的滑动窗口在窗口完成之前发出结果
我正在尝试使用Java中的Apache Flink实现滑动窗口。我一直在参考以下文件: 窗户|阿帕奇弗林克 根据我的用例,我收到来自 Kaf 的传入数据流...
我正在将我的项目从 Flink 1.14.5 迁移到 1.18.1。我正在使用 scala API 和 SBT。当我尝试在本地计算机(Windows 11)上运行 jar 时,出现错误: java.lang.NoClassDefFoundError...
错误:模块 java.base 未“打开 java.util”
我正在将应用程序从 Java 11 迁移到 Java 17,在运行一些测试时我面临以下问题: java.lang.RuntimeException:java.lang.reflect.InaccessibleObjectException:无法...
将嵌套 Kafka JSON 反序列化为简单的 POJO 以供 Flink 使用
我目前从我的kafka源中得到的JSON看起来像这样: { “url”:“/导入/某事”, “身体”: { “用户id”:“4110e4f5-09d6-45d1-
如何在 Flink 流中处理来自一个 Kafka 主题的键控事件和批处理事件
我正在尝试编写一个 Flink 作业来处理来自单个 Kafka 主题的事件。事件流包含键控事件和批处理事件。键控事件代表事务并具有键 transactionId。
我通过kafka接收消息,这些消息基本上是List,然后是DataStream>。我使用 flatmap 将其转换为 DataStream。问题是哪里...
基于Flink Checkpoint的状态恢复-错过事件解决方案
我正在使用 flink 检查点来恢复我的工作状态。我使用未对齐的检查点,检查点间隔为 100 毫秒。我看到很少有事件被成功触发......
在我们的生产集群中,我们看到 flink CPU 在 14 天内攀升的模式,导致容器被终止。 Flink 堆显示如下图所示的增长。最初的理论是CPU是贡献...
如何在管道中使用 Apache Beam 的 PulsarIO.write(缺少必需属性:clientUrl)
我有一个光束管道,我想将输出写入脉冲星主题。 最后我说 pCollection.apply("发送到 Pulsar", PulsarIO.write().withClientUrl(pulsarClientUrl).withTopic(
无法反序列化 Avro 记录:获取 ArrayIndexOutOfBoundsException
我正在尝试使用 Pyflink 从 Kafka 读取 Avro 格式 我的程序是这样的: 从 pyflink.datastream 导入 StreamExecutionEnvironment 从 pyflink.datastream.connectors.kafka 导入
使用 Group By 和 Window 时 Flink Pipeline 不执行
我在使用 Kafka 源部署 Flink 流应用程序时遇到问题。下面是我的代码片段: StreamExecutionEnvironment env = StreamExecutionEnvironment。
在不使用 Thread.sleep 的情况下限制 Flink 作业中的事件流动
我是 Flink 新手,我正在尝试实现一个从 Kafka 主题消费的管道,对该数据执行较小的过滤和转换,并异步写入端点。