Apache Flink是一个用于可扩展批处理和流数据处理的开源平台。 Flink在一个系统中支持批量和流分析。分析程序可以用Java和Scala中简洁优雅的API编写。
我目前正在编写我的第一个 Flink 应用程序,并且想要监视文件夹中的新文件。不幸的是我找不到关于这个主题的很多例子。 我找到了 readFile(fileInputFormat,
我是 PyFlink 的新手,我有一个 kafka 流,其中的电话号码、主机名和事件时间均为字符串格式。如何计算每对电话号码、主机名、期间的访问次数...
Flink 与 Iceberg Catalog 和 Hive Metastore:找不到 org.apache.hadoop.fs.s3a.S3AFileSystem
我正在尝试使用 Apache Iceberg 目录和 Hive Metastore 设置 Flink SQL,但没有成功。以下是我在干净的 Flink 1.18.1 安装中采取的步骤,以及由此产生的错误...
如何使用Flink创建一个按STRUCT/ROW类型的内部字段分区的Iceberg表?
我尝试像这样创建表格: Flink SQL> 创建表 test (nested ROW(id STRING, name STRING)) 分区 (nested.id); 但我收到这个错误: [错误] 无法执行 SQL 语句。罗...
我们正在尝试按我们从三个 Kafka 主题消费的事件时间对事件进行排序。每个源主题都有三个分区,我们将 Flink 并行度也设置为 3。阅读事件后...
无法在我的 Maven 构建中获取 org.apache.flink.formats 包
我一直在尝试通过maven构建我的apache flink项目,但由于某种原因我遇到了编译错误。值得注意的是“org.apache.flink.formats 包不存在”...
我在 Kubernetes 上的 10 个节点的集群中运行 Flink。我还使用 Minio 进行检查点/保存点目的。当我使用 job.jar 运行 Flink 时,总是出现以下错误: 该项目...
我有一个flink应用程序,我从两个kafka源读取数据并对两个流执行连接操作 我在源头设置水印策略,例如 数据流...
无法将 Flink SQL 作业升级到 1.18,因为 Calc 和 ChangelogNormalize 顺序发生了变化
上下文 我们在使用版本 1.15.2 的 Flink 集群中运行 Flink 作业。这些工作包括: 一个或多个 KafkaSource,我们从中创建带有主键的变更日志流。 SQL
我目前正在尝试在apche flink中使用tableApi并将流数据保存为CSV文件,但我得到的只是partFiles而不是CSV文件。 我的代码如下所示: 创建表 MyTable3 (
我使用定期水印按事件时间对消息进行排序,但是如果我配置“withIdleness”,结果会出现很大差异。 基本上,我越来越outOfOrd...
java.lang.reflect.InaccessibleObjectException:模块java.base不会向未命名模块“打开java.util.concurrent.atomic”
我正在编写一个 apache flink 程序来本地运行并与 google pubsub 交互。 依赖关系 17 ...
我正在尝试在 Flink 中的 KeyedStream 上执行映射操作: Stream.map(new JsonToMessageObjectMapper()) .keyBy("关键字段") .map(新的消息处理器St...
如何通过保存点恢复作业,并在应用程序模式下通过executeAsync运行多作业(flink 1.18)
我正在开发 1.18 版本的 flink java,并希望使用应用程序模式在一个 pod 中运行 2 个作业(k8s docker 部署)。 在java代码中,我使用for语句使用env创建2个或更多作业。
根据 CoW 表的 Hoodie 文档,应注意自动镶木地板文件大小调整。然而,它就是行不通。有人可以帮忙吗? 创建表 hudi_table( ts 大整数, uuid
即使所有分区中都没有新数据,如何在 Flink SQL 中为 Kafka 源提前水印?
我有一个简单的Flink(v1.17)SQL流作业,使用Kafka作为源,我配置了一些与水印相关的配置,但我似乎不明白如何强制
我有一个flink作业(应用程序模式),其处理时间窗口聚合来自多个kafka主题的事件。这符合快乐路径的预期。 幸福之路是一个简单的归约...
在 Apache Flink DataStream API 中访问 Kafka 元数据
使用 Apache Flink DataStream Connectors for Kafka 创建源时如何访问 Kafka 元数据?,我注意到在 Apache Flink Table API Connector for Kafka 中,我们能够访问记录
如何在 flink 流作业中将一个繁忙的流与多个非常小的流连接在一起
如果我有一个称为事件的流。 事件有对系统和类型的引用。 然后我有一个名为 system 的流和一个名为 eventType 的流。 在我的最终结果中,我需要所有三个的数据。 在我的使用...
我想使用 Flink 合并两个(多个)流。两个流本身都是有序的,我希望合并结果也被排序。举个例子 [1,2,4,5,7,8,...] 和 [2,3,6,7,..] 应该产生