Postgres-从其他表向表中添加新行的最佳方法

Question

方案：我有一个包含以下表格的发布数据库：

publication包含有关数据库中每本书的信息。
[keyword列出所有标识出版物的预定义术语。
publication_keyword是与发布和关键字匹配的查找表。
new_publication_keyword是一个查找表，其中包含出版物和关键字之间的新匹配。

我需要将new_publication_keyword中的行添加到publication_keyword中，避免添加已经存在的行。

这里是在测试模式中创建方案的DDL

SET search_path = test;

drop table publication_keyword;
drop table publication;
drop table keyword;
drop table new_publication_keyword;

CREATE TABLE publication (
  id VARCHAR(24) NOT NULL,
  title VARCHAR(1024),
  CONSTRAINT publication_pkey PRIMARY KEY(id)
);

CREATE TABLE keyword (
  id VARCHAR(12) NOT NULL,
  label VARCHAR(180) NOT NULL,
  CONSTRAINT keyword_list_pkey PRIMARY KEY(id)
);

CREATE TABLE publication_keyword (
  publication_id VARCHAR(24) NOT NULL,
  keyword_id VARCHAR(12) NOT NULL
);
CREATE INDEX publication_keyword_code_idx ON publication_keyword
  USING btree (keyword_id COLLATE pg_catalog."default");
CREATE INDEX publication_keyword_pubid_idx ON publication_keyword 
  USING btree (publication_id COLLATE pg_catalog."default");

CREATE TABLE new_publication_keyword (
  publication_id VARCHAR(24) NOT NULL,
  keyword_id VARCHAR(12) NOT NULL
);
CREATE INDEX new_publication_keyword_code_idx ON new_publication_keyword 
 USING btree (keyword_id COLLATE pg_catalog."default");
CREATE INDEX new_publication_keyword_pubid_idx ON new_publication_keyword 
 USING btree (publication_id COLLATE pg_catalog."default");

insert into publication values ('EAN13CODE1001','Title 1');
insert into publication values ('EAN13CODE1002','Title 2');
insert into publication values ('EAN13CODE1003','Title 3');

insert into keyword values ('KWCODE0001','Keyword 1');
insert into keyword values ('KWCODE0002','Keyword 2');

insert into publication_keyword values ('EAN13CODE1001', 'KWCODE0001');
insert into publication_keyword values ('EAN13CODE1002', 'KWCODE0001');

insert into new_publication_keyword values ('EAN13CODE1001', 'KWCODE0001');
insert into new_publication_keyword values ('EAN13CODE1003', 'KWCODE0001');
insert into new_publication_keyword values ('EAN13CODE1003', 'KWCODE0002');

我想知道当每个表包含数百万行时使用哪种最佳策略。当前，我正在使用LEFT OUTER JOIN查询，不包括所有现有行，但这是一个非常慢的解决方案：

insert into publication_keyword (publication_id, keyword_id)
  select npw.publication_id, npw.keyword_id from new_publication_keyword npw left outer join 
   publication_keyword pw on npw.publication_id = pw.publication_id and npw.keyword_id = pw.keyword_id
   where pw.publication_id is null

我想将INSERT与ON CONFLICT子句一起使用，但是要使用它，我需要在publication_keyword表上创建一个PRIMARY KEY，并为此新索引使用大量磁盘空间：

-- Not working with the current schema, need to add a PK on publication_keyword 
insert into publication_keyword (publication_id, keyword_id)
  select publication_id, keyword_id from new_publication_keyword
  ON CONFLICT DO NOTHING;

那么，添加新行的最佳解决方案是什么？

Answer 1

您似乎遇到了磁盘空间问题，这有点令人困惑，因为您的表上已经有很多索引。

也就是说，您的解决方案需要三个索引。我只建议两个：

CREATE TABLE new_publication_keyword (
  publication_id VARCHAR(24) NOT NULL,
  keyword_id VARCHAR(12) NOT NULL,
  PRIMARY KEY (publication_id, keyword_id)
);

CREATE INDEX new_publication_keyword_code_idx ON new_publication_keyword 
 USING btree (keyword_id COLLATE pg_catalog."default");

定义了主键后，publication_id不需要单独的索引。

而且，所有这些，我不明白您为什么要使用字符串作为ID。整数将更有效。让我猜测您已经为每个表都有一个键。您可以在数据库中创建一个合成的：

CREATE TABLE publications (
  publication_id SERIAL PRIMARY KEY,
  my_id VARCHAR(24) NOT NULL,
  title VARCHAR(1024),
  CONSTRAINT unq_publication UNIQUE (my_id)
);

CREATE TABLE keywords (
  keyword_id serial PRIMARY KEY,
  my_id VARCHAR(12) NOT NULL,
  label VARCHAR(180) NOT NULL,
  CONSTRAINT unq_keyword_list UNIQUE (my_id)
);

那么您就有：

CREATE TABLE new_publication_keywords (
  publication_id INT NOT NULL REFERENCES publications(publication_id),
  keyword_id INT NOT NULL REFERENCES keywords(keyword_id),
  PRIMARY KEY (publication_id, keyword_id)
);

CREATE INDEX new_publication_keyword_code_idx ON new_publication_keyword 
 USING btree (keyword_id COLLATE pg_catalog."default");

尽管基表更大-两者都是因为有一个额外的4字节序列ID和一个额外的索引，所以关联表要小得多。

在您的版本中，每行最多为24 + 12 + 1 + 1 = 38个字节。在此版本中，每行为8个字节。这种差异也会影响索引。另外，固定大小的键上的索引通常效率更高。

Postgres-从其他表向表中添加新行的最佳方法

问题描述投票：1回答：1

1个回答

最新问题

Postgres-从其他表向表中添加新行的最佳方法

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1