Apache Flink是一个用于可扩展批处理和流数据处理的开源平台。 Flink在一个系统中支持批量和流分析。分析程序可以用Java和Scala中简洁优雅的API编写。
apache flink 0.10如何从无界输入dataStream中获取复合键的第一次出现?
我是apache flink的新手。我的输入中有一个未绑定的数据流(通过kakfa送入flink 0.10)。我想获得每个主键的第一次出现(主键是contract_num ...
文件保持.pending而flink bucketingsink作业被保存点取消
我们使用BucketingSink将压缩文件(单独用“\ n”)写入hdfs。但是,一旦我们手动取消作业,最后一行文件将被截断。如果我们用保存点取消作业...
我正在学习Flink,我开始使用DataStream进行简单的单词计数。为了增强处理,我过滤了输出,只显示了找到3个或更多单词的结果。数据流
由于代码中的错误或缺乏验证,进入Flink作业的数据可能会触发异常。我的目标是提供一致的异常处理方式,我们的团队可以使用...
Flink与Guava缓存 - ProcessFunction的实现不可序列化
我实现了一个ProcessFunction,它使用Guava缓存来过滤传入事件流。代码如下所示:object myJob {private def updateCache(cacheObject,someValue)= {} private ...
我正在尝试恢复我的工作并说明当我的工作经理失败并且我无法成功重新开始工作时。根据我的理解,TaskManager恢复得到了......
Apache Flink flapMap Operator中发现“缓冲池被破坏”问题
当我尝试在flatMap运算符中写入OUT集合时,我得到非法状态异常(仅在高负载下):缓冲池被破坏我在这做什么错?当flink抛出Buffer pool ...
我试图在Flink中使用Scala XML库来解析XML,但我无法使其工作。请注意,我需要在我的代码中使用序列化和非序列化(字符串)版本...
我正在尝试转换数据流,而不使用Flink提供的任何窗口。我的代码看起来像这样:val stream1 = executionEnvironment.getStream val stream2 = stream1 ....
对于运算符,输入流比其输出流更快,因此其输入缓冲区将阻止先前运算符的输出线程,该线程将数据传输到此运算符。对?做Flink ......
在这种情况下,我们有3个kafka主题(每个有50个分区),它们有不同的消息,而所有这些消息都有字段'username',topic_1 - > Message01 {String username; ...}, 关于 ...
我想知道flink的详细故障恢复过程。在独立模式下,我猜一些步骤,比如TaskManager故障,首先检测故障,所有任务停止处理,然后......
我正在为我的工作使用默认重启策略,如果问题可能在一段时间后解决(没有网络,内存不足,Kafka不可用等等),它可以正常工作。但是,有......
我看到窗口的所有例子都涉及定义窗口。例如,翻滚1分钟的窗户,或滑动1分钟的窗户等。在我的情况下,我的所有数据都有时间戳事件,但那不是......
我希望在Flink的并行任务中共享我的Flink作业(Scala)中的私有变量。我的代码是这样的:object myJob extends flinkJob {private val myVariable = someValue ...
如何在Kubernetes上的Flink(scala)中记录自定义flatMap函数?
我正在将自定义flatMap函数应用于Flink中的DataStream,并希望记录我的flatMap函数中可能出现的异常。 Flink工作在Kubernetes上部署并运行,所以我想我可以......
在文档中,它说:要启用延迟跟踪,您必须在Flink配置或ExecutionConfig中将latencyTrackingInterval设置为正数。我这样做,然后......
关于Apache Flink框架的问题。有没有办法在单个flink工作中支持像kafka和twitter这样的多个流媒体源?有没有工作。我们可以处理更多......
我发现了一个帖子Scaling Klaviyo的事件处理管道与流处理,在帖子中,公司名为Klaviyo的人在不同的时间范围内进行计数,每小时,每天,甚至......