NiFi-提高QueryDatabaseTable的性能以胜过Sqoop

问题描述 投票:0回答:2

我正在使用QueryDatabaseTable从具有大约7000万行的PDA / Netezza表中进行读取。

将Nifi设置为单节点实例,并编辑了bootstrap.conf以提供16g RAM。

QueryDatabase表使用默认值,但>>

  • Max Rows Per Flow File:1000000
  • Output Batch Size:10
  • 结果是整个70M耗时很长,需要1.5个小时,大约是1M记录p /分钟。

  1. 我是否可以尝试进行其他配置更改以提高性能?
  2. QueryDatabaseTable在内部转换为Avro,是否可以跳过此转换,而仅使用PDA / Netezza中的文本格式来提高性能?
  3. 也计划很快建立集群,但是它将是4或6个节点,因此仍希望将性能提高到10分钟或更短。这可能吗?

我正在使用QueryDatabaseTable从具有约7000万行的PDA / Netezza表中进行读取。将Nifi设置为具有bootstrap.conf的单节点实例,并对其进行编辑以提供16g RAM。 QueryDatabase ...

apache-nifi sqoop netezza
2个回答
2
投票

QueryDatabaseTable只能在主节点上运行,因为它是用于获取的单一源。这意味着它将无法扩展到诸如Sqoop之类的分布式/并行解决方案。同样,如果您假设在使用Sqoop的NiFi群集中有3个节点,而在Hadoop群集中有10个节点,那么自然地,您会在后者中获得更多的并行性。


0
投票

我认为对于Netezza系统,每小时1百万行太慢了。

© www.soinside.com 2019 - 2024. All rights reserved.