使用Wikipedia的LatestChanges API进行实时数据流传输

问题描述 投票:0回答:1

我最近正在尝试使用NiFi-> Kafka-> Druid-> Superset创建实时流演示。出于演示目的,我选择使用Wikipedia's RecentChanges API来获取最新更改的异步数据。我使用此URL以获得更改的响应。我正在调用API,以确保不会丢失任何更改。这样,我得到了很多我不想要的重复项。无论如何,是否有参数化此API的参数以对其进行修复,例如获得前一秒的所有更改并每秒进行一次更改或其他操作来解决此问题。我正在尝试为此NiFi进行配置,如果有人必须在该部分添加一些内容,然后访问Cloudera上的讨论。

rest apache-nifi wikipedia-api
1个回答
0
投票

是。请参见https://en.wikipedia.org/w/api.php?action=help&modules=query%2Brecentchanges。使用rcstart和rcend定义开始和结束时间。您可以将“ now”用于rcend。

© www.soinside.com 2019 - 2024. All rights reserved.