从postgres表中读取的简单数据源(从20列中获取3列)需要花费大量时间来读取,我想读取该数据以在其中获取一列信息的流查询中读取
这里是日志:
2020/05/15 07:56:03 - load_identifications - Step **Srclkp_Individuals.0** ended successfully, processed 4869591 lines. ( 7632 lines/s)
2020/05/15 07:56:03 - load_identifications - Step LookupIndiv.0 ended successfully, processed 9754378 lines. ( 15288 lines/s)
表输入查询为:
SELECT
id as INDIVIDUAL_ID,
org_ext_loc
FROM
individuals
此表位于postgres中,几乎没有20列,大约有480万行。
这是下面有关pentaho 7.1数据集成和服务器的详细信息
**Our server information**:
OS : Oracle Linux 7.3
RAM : 65707 MB
HDD Capacity : 2 Terabytes
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
CPU(s): 16
CPU MHz: 2294.614
我正在使用jdbc连接到postgres
不知道我还能做什么来获得大约15,000行/秒的吞吐量
检查其他项下的转换属性行集中的行数反馈大小
还请检查表是否具有正确的索引。
[使用表输入和流查找时,pentaho运行流查找的方式比使用数据库查找时要慢。正如@nsousa所建议的,我用虚拟步进行了检查,并知道pentaho的处理方式对于每种类型的步都是不同的]
即使数据库查找和流查找属于同一类别,在这种情况下,数据库查找的性能也会更好。.
Pentaho帮助给出了关于此的一些想法/建议