我正在使用QueryDatabaseTable从具有大约7000万行的PDA / Netezza表中进行读取。
将Nifi设置为单节点实例,并编辑了bootstrap.conf
以提供16g RAM。
QueryDatabase表使用默认值,但>>
Max Rows Per Flow File
:1000000Output Batch Size
:10结果是整个70M耗时很长,需要1.5个小时,大约是1M记录p /分钟。
也计划很快建立集群,但是它将是4或6个节点,因此仍希望将性能提高到10分钟或更短。这可能吗?
我正在使用QueryDatabaseTable从具有约7000万行的PDA / Netezza表中进行读取。将Nifi设置为具有bootstrap.conf的单节点实例,并对其进行编辑以提供16g RAM。 QueryDatabase ...
QueryDatabaseTable只能在主节点上运行,因为它是用于获取的单一源。这意味着它将无法扩展到诸如Sqoop之类的分布式/并行解决方案。同样,如果您假设在使用Sqoop的NiFi群集中有3个节点,而在Hadoop群集中有10个节点,那么自然地,您会在后者中获得更多的并行性。
我认为对于Netezza系统,每小时1百万行太慢了。