Postgres中的快速随机行选择

Question

我在postgres中有一个包含数百万行的表。我在网上查了一下，发现了以下内容

SELECT myid FROM mytable ORDER BY RANDOM() LIMIT 1;

它工作，但它真的很慢......是否有另一种方式来进行查询，或者直接选择随机行而不读取所有表格？顺便说一下'myid'是一个整数，但它可以是一个空字段。

谢谢

Answer 1

您可能想要尝试使用OFFSET，如

SELECT myid FROM mytable OFFSET floor(random()*N) LIMIT 1;

N是mytable中的行数。您可能需要先做一个SELECT COUNT(*)来计算N的值。

更新（由Antony Hatchkins提供）

你必须在这里使用floor：

SELECT myid FROM mytable OFFSET floor(random()*N) LIMIT 1;

考虑一个2行的表; random()*N生成0 <= x < 2，例如SELECT myid FROM mytable OFFSET 1.7 LIMIT 1;返回0行，因为隐式舍入到最近的int。

Answer 2

PostgreSQL 9.5引入了一种新方法，可以更快地选择样本：TABLESAMPLE

语法是

SELECT * FROM my_table TABLESAMPLE BERNOULLI(percentage);
SELECT * FROM my_table TABLESAMPLE SYSTEM(percentage);

如果您只想选择一行，这不是最佳解决方案，因为您需要知道表的COUNT来计算确切的百分比。

为了避免缓慢的COUNT并对从1行到数十亿行的表使用快速TABLESAMPLE，您可以：

 SELECT * FROM my_table TABLESAMPLE SYSTEM(0.000001) LIMIT 1;
 -- if you got no result:
 SELECT * FROM my_table TABLESAMPLE SYSTEM(0.00001) LIMIT 1;
 -- if you got no result:
 SELECT * FROM my_table TABLESAMPLE SYSTEM(0.0001) LIMIT 1;
 -- if you got no result:
 SELECT * FROM my_table TABLESAMPLE SYSTEM(0.001) LIMIT 1;
 ...

这可能看起来不那么优雅，但可能比任何其他答案都快。

要决定是否要使用BERNOULLI订单SYSTEM，请阅读qazxsw poi的差异

Answer 3

我用子查询尝试了这个，它工作得很好。偏移，至少在Postgresql v8.4.4中工作正常。

http://blog.2ndquadrant.com/tablesample-in-postgresql-9-5-2/

Answer 4

你需要使用select * from mytable offset random() * (select count(*) from mytable) limit 1 ;：

floor

Answer 5

检查此链接以获取一些不同的选项。 SELECT myid FROM mytable OFFSET floor(random()*N) LIMIT 1;

更新：（A.Hatchkins）

（非常）长文章的摘要如下。

作者列出了四种方法：

1）http://www.depesz.com/index.php/2007/09/16/my-thoughts-on-getting-random-row/ - 慢

2）ORDER BY random() LIMIT 1; - 如果存在空隙则不均匀

3）随机列 - 需要不时更新

4）自定义ORDER BY id where id>=random()*N LIMIT 1 - 狡猾的方法，可能很慢：random（）需要生成N次

并建议使用改进方法＃2

5）random aggregate，如果结果为空，则后续重新查询。

Answer 6

我想出了一个没有ORDER BY id where id=random()*N LIMIT 1的快速解决方案。比TABLESAMPLE快得多。它甚至不需要表计数。

我们的想法是创建一个具有随机但可预测数据的表达式索引，例如OFFSET random()*N LIMIT 1。

这是一个包含1M行样本数据的测试：

md5(primary key)

结果：

create table randtest (id serial primary key, data int not null);

insert into randtest (data) select (random()*1000000)::int from generate_series(1,1000000);

create index randtest_md5_id_idx on randtest (md5(id::text));

explain analyze
select * from randtest where md5(id::text)>md5(random()::text)
order by md5(id::text) limit 1;

此查询有时（大约1 / Number_of_rows概率）返回0行，因此需要检查并重新运行。同样的概率也不完全相同 - 有些行比其他行更可能。

为了比较：

 Limit  (cost=0.42..0.68 rows=1 width=8) (actual time=6.219..6.220 rows=1 loops=1)
   ->  Index Scan using randtest_md5_id_idx on randtest  (cost=0.42..84040.42 rows=333333 width=8) (actual time=6.217..6.217 rows=1 loops=1)
         Filter: (md5((id)::text) > md5((random())::text))
         Rows Removed by Filter: 1831
 Total runtime: 6.245 ms

结果差异很大，但可能非常糟糕：

explain analyze SELECT id FROM randtest OFFSET random()*1000000 LIMIT 1;

Answer 7

获取随机行的最简单，最快捷的方法是使用Limit (cost=1442.50..1442.51 rows=1 width=4) (actual time=179.183..179.184 rows=1 loops=1) -> Seq Scan on randtest (cost=0.00..14425.00 rows=1000000 width=4) (actual time=0.016..134.835 rows=915702 loops=1) Total runtime: 179.211 ms (3 rows)扩展：

tsm_system_rows

然后，您可以选择所需的确切行数：

CREATE EXTENSION IF NOT EXISTS tsm_system_rows;

这适用于PostgreSQL 9.5及更高版本。

见：SELECT myid FROM mytable TABLESAMPLE SYSTEM_ROWS(1);

Postgres中的快速随机行选择

问题描述投票：83回答：7

7个回答

最新问题

Postgres中的快速随机行选择

问题描述 投票：83回答：7

7个回答

最新问题

问题描述投票：83回答：7