在 python 中的 Apache Beam 中使用不同的数据库动态提供副/主要输入

问题描述 投票:0回答:0

我有一个非常独特的管道用例,它是动态地为我的主要输入提供辅助输入。我有一个 pcollection,必须使用必须在不同来源中找到的数据进行连接。我的动机是我的代码去检查以加入可以在不同数据库中的任何地方找到的不同事件。例如,我有一个特定用户的“开始”事件,我必须等待我的“结束”事件加入它。但是,我必须等待最后一个事件到达数据库,所以我的代码要做的是假设它有 100 行“START”事件作为来自 Pub/Sub 的输入,我希望这些数据加入这些2 个事件。我的代码应该首先转到 redis,然后在连接的右侧搜索该特定键的数据,如果在 redis 中找不到任何内容,则进一步转到另一个数据库,如 spanner、bigquery 等等......

从不同数据库中获取的数据必须是串行的,在数据加入后我的代码应该丢弃在另一侧找到连接的特定行,最好在 python 中得到一些东西。我希望我很清楚,请问任何让你感到困惑的事情

redis google-bigquery apache-beam google-cloud-spanner
© www.soinside.com 2019 - 2024. All rights reserved.