Pentaho大源表处理到目标表的相同模式

问题描述投票：0回答：1

我目前有一个etl作业，该作业读取具有超过一百万条记录的源表，然后顺序处理到目标表。源和目标都在相同的架构中，但是在两者之间有一个外部rest终结点调用，用于发布源表中的某些数据，并且此工作现在执行得很糟糕，请让我知道提高性能的一些方法吗？如何并行化或减少fetchsize等以减少此作业运行时间的术语？

pentaho

kettle

pentaho-spoon

pentaho-data-integration

1个回答

0
投票

检查您的其余端点是否支持批处理，然后实施。如今，大多数API都在这样做。（在这种情况下，您在一个json / xml文件中将多个请求发送到端点）

否则，您只需要使用REST客户端步骤的多个副本即可。您至少应该能够以8-10的优势脱颖而出，但是请确保您在另一端没有受到某种限制。

最后，如果以上方法均无济于事，请尝试在java类步骤（而非javascript）中炮制自己的httpclient，并通过保持会话打开状态，确保仅对其余端点（而非每个请求）进行一次身份验证。我不是100％相信其余客户端会这样做，并且身份验证通常是最昂贵的方法。

Pentaho大源表处理到目标表的相同模式

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1