Pentaho表输入即使在表中的两列中，也会在postgres表上提供非常低的性能

Question

从postgres表中读取的简单数据源（从20列中获取3列）需要花费大量时间来读取，我想读取该数据以在其中获取一列信息的流查询中读取

这里是日志：

2020/05/15 07:56:03 - load_identifications - Step **Srclkp_Individuals.0** ended successfully, processed 4869591 lines. ( 7632 lines/s)
2020/05/15 07:56:03 - load_identifications - Step LookupIndiv.0 ended successfully, processed 9754378 lines. ( 15288 lines/s)

表输入查询为：

SELECT
    id as INDIVIDUAL_ID,
    org_ext_loc 
FROM
    individuals

此表位于postgres中，几乎没有20列，大约有480万行。

这是下面有关pentaho 7.1数据集成和服务器的详细信息

**Our server information**:
OS : Oracle Linux 7.3
RAM : 65707 MB
HDD Capacity : 2 Terabytes
Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
CPU(s):                16
CPU MHz:               2294.614

我正在使用jdbc连接到postgres

不知道我还能做什么来获得大约15,000行/秒的吞吐量

Answer 1

检查其他项下的转换属性行集中的行数反馈大小

还请检查表是否具有正确的索引。

Answer 2

[使用表输入和流查找时，pentaho运行流查找的方式比使用数据库查找时要慢。正如@nsousa所建议的，我用虚拟步进行了检查，并知道pentaho的处理方式对于每种类型的步都是不同的]

即使数据库查找和流查找属于同一类别，在这种情况下，数据库查找的性能也会更好。.

Pentaho帮助给出了关于此的一些想法/建议

Pentaho表输入即使在表中的两列中，也会在postgres表上提供非常低的性能

问题描述投票：0回答：2

2个回答

最新问题

Pentaho表输入即使在表中的两列中，也会在postgres表上提供非常低的性能

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2