我的问题由以下查询表示:
SELECT
b.row_id, b.x, b.y, b.something,
(SELECT a.x FROM my_table a WHERE a.row_id = (b.row_id - 1), a.something != 42 ) AS source_x,
(SELECT a.y FROM my_table a WHERE a.row_id = (b.row_id - 1), a.something != 42 ) AS source_y
FROM
my_table b
我使用相同的子查询语句两次,以获得source_x
和source_y
。这就是为什么我想知道是否可以只使用一个子查询来做到这一点?
因为一旦我对我的真实数据(数百万行)运行此查询,它似乎永远不会完成并花费数小时,如果不是几天(我的连接在结束前挂起)。
我正在使用PostgreSQL 8.4
@DavidEG发布了查询的最佳语法。
但是,您的问题绝对不仅仅是查询技术。 JOIN
而不是两个子查询可以最多加速两倍。很可能更少。这并不能解释“小时”。即使有数百万行,一个体面设置的Postgres也应该在几秒钟内完成简单的查询,而不是几小时。
... WHERE a.row_id = (b.row_id - 1), a.something != 42
这里需要AND
或OR
,而不是逗号。row_id
不是主键,则可能没有索引。为了获得此特定查询的最佳性能,请在multi-column index上创建一个(row_id, something)
,如下所示:
CREATE INDEX my_table_row_id_something_idx ON my_table (row_id, something)
something != 42
you中排除相同的值,也可以使用partial index代替额外的加速:
CREATE INDEX my_table_row_id_something_idx ON my_table (row_id)
WHERE something != 42
如果42
是一个常见值,或者something
是一个比整数更大的列,这只会产生实质性的差异。 (由于数据对齐,具有两个integer
列的索引通常在磁盘上占据与仅有一个索引相同的大小。请参阅:
Calculating and saving space in PostgreSQL
Is a composite index also good for queries on the first field?我想你可以使用这种方法:
SELECT b.row_id
, b.x
, b.y
, b.something
, a.x
, a.y
FROM my_table b
left join my_table a on a.row_id = (b.row_id - 1)
and a.something != 42
老式语法:
SELECT
b.row_id, b.x, b.y, b.something
, a.x AS source_x
, a.y AS source
FROM my_table b
,my_table a
WHERE a.row_id = b.row_id - 1
AND a.something != 42
;
加入语法:
SELECT
b.row_id, b.x, b.y, b.something
, a.x AS source_x
, a.y AS source
FROM my_table b
JOIN my_table a
ON (a.row_id = b.row_id - 1)
WHERE a.something != 42
;
SELECT b.row_id, b.x, b.y, b.something, a.x, a.y
FROM my_table b
LEFT JOIN (
SELECT row_id + 1, x, y
FROM my_table
WHERE something != 42
) AS a ON a.row_id = b.row_id;