Pentaho表输入即使在表中的两列中,也会在postgres表上提供非常低的性能

问题描述 投票:0回答:2

从postgres表中读取的简单数据源(从20列中获取3列)需要花费大量时间来读取,我想读取该数据以在其中获取一列信息的流查询中读取

这里是日志:

2020/05/15 07:56:03 - load_identifications - Step **Srclkp_Individuals.0** ended successfully, processed 4869591 lines. ( 7632 lines/s)
2020/05/15 07:56:03 - load_identifications - Step LookupIndiv.0 ended successfully, processed 9754378 lines. ( 15288 lines/s)

表输入查询为:

SELECT
    id as INDIVIDUAL_ID,
    org_ext_loc 
FROM
    individuals

此表位于postgres中,几乎没有20列,大约有480万行。

这是下面有关pentaho 7.1数据集成和服务器的详细信息

**Our server information**:
OS : Oracle Linux 7.3
RAM : 65707 MB
HDD Capacity : 2 Terabytes
Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
CPU(s):                16
CPU MHz:               2294.614

我正在使用jdbc连接到postgres

不知道我还能做什么来获得大约15,000行/秒的吞吐量

postgresql pentaho throughput
2个回答
0
投票

检查其他项下的转换属性行集中的行数反馈大小

还请检查表是否具有正确的索引。


0
投票

[使用表输入和流查找时,pentaho运行流查找的方式比使用数据库查找时要慢。正如@nsousa所建议的,我用虚拟步进行了检查,并知道pentaho的处理方式对于每种类型的步都是不同的]

即使数据库查找和流查找属于同一类别,在这种情况下,数据库查找的性能也会更好。.

Pentaho帮助给出了关于此的一些想法/建议

© www.soinside.com 2019 - 2024. All rights reserved.