Pentaho大源表处理到目标表的相同模式

问题描述 投票:0回答:1

我目前有一个etl作业,该作业读取具有超过一百万条记录的源表,然后顺序处理到目标表。源和目标都在相同的架构中,但是在两者之间有一个外部rest终结点调用,用于发布源表中的某些数据,并且此工作现在执行得很糟糕,请让我知道提高性能的一些方法吗?如何并行化或减少fetchsize等以减少此作业运行时间的术语?

pentaho kettle pentaho-spoon pentaho-data-integration
1个回答
0
投票

检查您的其余端点是否支持批处理,然后实施。如今,大多数API都在这样做。 (在这种情况下,您在一个json / xml文件中将多个请求发送到端点)

否则,您只需要使用REST客户端步骤的多个副本即可。您至少应该能够以8-10的优势脱颖而出,但是请确保您在另一端没有受到某种限制。

最后,如果以上方法均无济于事,请尝试在java类步骤(而非javascript)中炮制自己的httpclient,并通过保持会话打开状态,确保仅对其余端点(而非每个请求)进行一次身份验证。我不是100%相信其余客户端会这样做,并且身份验证通常是最昂贵的方法。

© www.soinside.com 2019 - 2024. All rights reserved.