这个子查询可以使用索引吗？

Question

首先，提前为文本墙道歉。我确实阅读了我能找到的每个类似的问题/答案，但是答案似乎不适用于我的查询，或者我需要更清晰地理解潜在的问题和解决方案。

我有一个文件大小表以及相关的文件日期和观察时间戳。所有日期都是UNIX纪元时间整数，以秒为单位：

mysql> describe name_servers;
+-----------------------+------------------+------+-----+---------+----------------+
| Field                 | Type             | Null | Key | Default | Extra          |
+-----------------------+------------------+------+-----+---------+----------------+
| server_name           | varchar(255)     | YES  |     | NULL    |                |
| file_date             | int(10) unsigned | YES  |     | NULL    |                |
| file_size             | int(10) unsigned | YES  |     | NULL    |                |
| time                  | int(10) unsigned | YES  | MUL | NULL    |                |
| poll_id               | int(11)          | NO   | PRI | NULL    | auto_increment |
+-----------------------+------------------+------+-----+---------+----------------+
5 rows in set (0.01 sec)


mysql> show index from name_servers;
+--------------+------------+--------------------------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table        | Non_unique | Key_name                 | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+--------------+------------+--------------------------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| name_servers |          0 | PRIMARY                  |            1 | poll_id     | A         |     3523218 |     NULL | NULL   |      | BTREE      |         |               |
| name_servers |          0 | index_time_servername    |            1 | time        | A         |      503316 |     NULL | NULL   | YES  | BTREE      |         |               |
| name_servers |          0 | index_time_servername    |            2 | server_name | A         |     3523218 |     NULL | NULL   | YES  | BTREE      |         |               |
+--------------+------------+--------------------------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
3 rows in set (0.00 sec)

我必须跟踪文件大小更改，以检测文件在任何48小时内是否缩小> 20％。通常情况下，我会尝试使用MySQL Window函数执行此操作，但我的服务器上的MySQL版本不支持它们（5.6.37 - 我无法控制，因为服务器不是由我的团队管理）。目前，我通过查找当前行中文件大小的外部查询以及在前48小时内找到最大文件大小的内部子查询（172,800秒）获取当前大小和最大大小（在过去48小时内））值行：

mysql> select name_servers_outside.server_name,
    -> name_servers_outside.file_size,
    -> name_servers_outside.file_date,
    -> name_servers_outside.time,
    -> (select max(file_size) from name_servers where time > (name_servers_outside.time - 172800) and server_name = 'example_server') as max_file_size
    -> from name_servers as name_servers_outside
    -> where name_servers_outside.server_name = 'example_server'
    -> and name_servers_outside.time > (UNIX_TIMESTAMP() - 172800)
    -> limit 10;
+-------------------+-------------------+-------------------+------------+-----------------------+
| server_name       | file_size         | file_date         | time       | max_file_size         |
+-------------------+-------------------+-------------------+------------+-----------------------+
| example_server    |           1159544 |        1550382945 | 1550382985 |               1159580 |
| example_server    |           1159544 |        1550382945 | 1550383195 |               1159580 |
| example_server    |           1159544 |        1550382945 | 1550383255 |               1159580 |
| example_server    |           1159544 |        1550382945 | 1550383316 |               1159580 |
| example_server    |           1159544 |        1550382945 | 1550383376 |               1159580 |
| example_server    |           1159544 |        1550382945 | 1550383435 |               1159580 |
| example_server    |           1159544 |        1550382945 | 1550383496 |               1159580 |
| example_server    |           1159544 |        1550382945 | 1550383555 |               1159580 |
| example_server    |           1159544 |        1550382945 | 1550383616 |               1159580 |
| example_server    |           1159544 |        1550382945 | 1550383676 |               1159580 |
+-------------------+-------------------+-------------------+------------+-----------------------+
10 rows in set (16.11 sec)

只检索那10行需要16秒，而在生产中，此查询将需要检索超过150行。内部查询正在对所有300万个表行进行完整扫描，并显示消息“为每个记录检查范围（索引映射：0x2）”：

mysql> explain
    -> select name_servers_outside.server_name,
    -> name_servers_outside.file_size,
    -> name_servers_outside.file_date,
    -> name_servers_outside.time,
    -> (select max(file_size) from name_servers where time > (name_servers_outside.time - 172800) and server_name = 'example_server') as max_file_size
    -> from name_servers as name_servers_outside
    -> where name_servers_outside.server_name = 'example_server'
    -> and name_servers_outside.time > (UNIX_TIMESTAMP() - 172800);
+----+--------------------+----------------------+-------+--------------------------+--------------------------+---------+------+---------+------------------------------------------------+
| id | select_type        | table                | type  | possible_keys            | key                      | key_len | ref  | rows    | Extra                                          |
+----+--------------------+----------------------+-------+--------------------------+--------------------------+---------+------+---------+------------------------------------------------+
|  1 | PRIMARY            | name_servers_outside | range | index_time_servername    | index_time_servername    | 5       | NULL |   47302 | Using index condition; Using MRR               |
|  2 | DEPENDENT SUBQUERY | name_servers         | ALL   | index_time_servername    | NULL                     | NULL    | NULL | 3533883 | Range checked for each record (index map: 0x2) |
+----+--------------------+----------------------+-------+--------------------------+--------------------------+---------+------+---------+------------------------------------------------+
2 rows in set (0.01 sec)

有问题的部分似乎是这样的：

time > (name_servers_outside.time - 172800)

如果我使用静态整数值而不是子查询中的“name_servers_outside.time”列引用来运行类似的查询，则会按预期使用索引并且查询速度很快：

time > (UNIX_TIMESTAMP() - 172800)

修改后的查询：

mysql> select name_servers_outside.server_name,
    -> name_servers_outside.file_size,
    -> name_servers_outside.file_date,
    -> name_servers_outside.time,
    -> (select max(file_size) from name_servers where time > (UNIX_TIMESTAMP() - 172800) and server_name = 'example_server') as max_file_size
    -> from name_servers as name_servers_outside
    -> where name_servers_outside.server_name = 'example_server'
    -> and name_servers_outside.time > (UNIX_TIMESTAMP() - 172800)
    -> limit 10;
+--------------------+-------------------+-------------------+------------+-----------------------+
| server_name        | file_size         | file_date         | time       | max_file_size         |
+--------------------+-------------------+-------------------+------------+-----------------------+
| example_server     |           1159544 |        1550382945 | 1550382985 |               1159580 |
| example_server     |           1159544 |        1550382945 | 1550383195 |               1159580 |
| example_server     |           1159544 |        1550382945 | 1550383255 |               1159580 |
| example_server     |           1159544 |        1550382945 | 1550383316 |               1159580 |
| example_server     |           1159544 |        1550382945 | 1550383376 |               1159580 |
| example_server     |           1159544 |        1550382945 | 1550383435 |               1159580 |
| example_server     |           1159544 |        1550382945 | 1550383496 |               1159580 |
| example_server     |           1159544 |        1550382945 | 1550383555 |               1159580 |
| example_server     |           1159544 |        1550382945 | 1550383616 |               1159580 |
| example_server     |           1159544 |        1550382945 | 1550383676 |               1159580 |
+--------------------+-------------------+-------------------+------------+-----------------------+
10 rows in set (0.01 sec)


mysql> explain
    -> select name_servers_outside.server_name,
    -> name_servers_outside.file_size,
    -> name_servers_outside.file_date,
    -> name_servers_outside.time,
    -> (select max(file_size) from name_servers where time > (UNIX_TIMESTAMP() - 172800) and server_name = 'example_server') as max_file_size
    -> from name_servers as name_servers_outside
    -> where name_servers_outside.server_name = 'example_server'
    -> and name_servers_outside.time > (UNIX_TIMESTAMP() - 172800)
    -> limit 10;
+----+-------------+----------------------+-------+--------------------------+--------------------------+---------+------+-------+----------------------------------+
| id | select_type | table                | type  | possible_keys            | key                      | key_len | ref  | rows  | Extra                            |
+----+-------------+----------------------+-------+--------------------------+--------------------------+---------+------+-------+----------------------------------+
|  1 | PRIMARY     | name_servers_outside | range | index_time_servername    | index_time_servername    | 5       | NULL | 49042 | Using index condition; Using MRR |
|  2 | SUBQUERY    | name_servers         | range | index_time_servername    | index_time_servername    | 5       | NULL | 49042 | Using index condition; Using MRR |
+----+-------------+----------------------+-------+--------------------------+--------------------------+---------+------+-------+----------------------------------+
2 rows in set (0.00 sec)

谢谢你和我一起读书。我再次为巨大的文本墙道歉，但我想确保我提供了足够的解释性细节来明确定义问题。

现在，我试图解决的问题是我需要在每行前48小时内检索file_size的最大值。因此，每行具有其自己的“max（file_size）”计算的唯一时间范围。然后，这将用于计算文件大小更改百分比。如上所述，我通常想要使用窗口函数，但我的MySQL版本（5.6.37）不支持它们，并且我不能更新到8.0，因为我没有这个服务器。

一如既往，任何建议都表示赞赏。谢谢你的阅读！

Answer 1

我首先尝试将file_size添加到index_time_servername索引，但我怀疑真正的问题是你必须在你的子查询中使用name_servers_outside.time，这来自不同的别名可能会使查询规划者感到困惑。

那么，在48小时之前的时间和时间之间，丢失子查询并将表连接到自身怎么样？

就像是...

SELECT
  name_servers_outside.server_name,
  name_servers_outside.file_size,
  name_servers_outside.file_date,
  name_servers_outside.time,
  MAX(previous.file_size) AS max_file_size
FROM
   name_servers AS ns
INNER JOIN name_servers AS previous 
   ON previous.time BETWEEN (ns.time - 172800) AND (ns.time - 1)
WHERE 
   ns.server_name = 'example_server'
   AND ns.time > (UNIX_TIMESTAMP() - 172800)
GROUP BY
   ns.server_name,
   ns.file_size,
   ns.file_date,
   ns.time
LIMIT 10;

Answer 2

我为延迟回复道歉;该解决方案最终涉及多个组件，并且需要花费时间来完成并测试它们。

我试图解决的主要问题是查询性能。严格地说，我的原始查询返回了预期的数据，但是花了这么长时间才完成，这是不切实际的。所以解决方案就是尽可能多地寻找减少执行时间的方法。

以下是最终解决方案：

根据Dazz Knowles的建议，我用子连接取代子查询，这清理了代码并使其更容易理解。
正如Progman建议的那样，我将索引更改为“server_name”字段上的单个列索引。
我将此查询中涉及的行移动到它们自己的表中，从而简化了列的工作集。
我将应用程序写入行的采样率从每分钟1个数据点（1行）减少到每小时1个数据点（1行），从而将行的工作集减少到先前数量的1/60。 1-4的组合效果使查询执行时间从几分钟缩短到几毫秒。
我之前尝试在运行时计算“max_file_size”，应用程序客户端同时向MySQL服务器提交约100个不同的服务器和每个服务器上的3个不同文件（每次应用程序刷新时运行约300个查询实例））。这使得MySQL服务器的CPU保持100％，因此对于实际使用来说并不实用，特别是对于同时使用客户端应用程序的多个最终用户。我更改为仅从服务器端脚本运行查询，并且仅在插入新行时。因此查询每小时运行一次，在几毫秒内计算~300 max_file_size值。然后它将max_file_size作为静态列写入MySQL表。 max_file_size所依赖的值都不应该改变，所以我不担心在为特定行写入后需要再次运行查询来更新max_file_size。应用程序的客户端现在只从MySQL读取数据;它不再尝试发送查询来计算max_file_size。事后看来，似乎这种方法从一开始就应该是显而易见的，但有时你必须先做错，才能理解什么才能使正确的方法正确。

这个子查询可以使用索引吗？

问题描述投票：5回答：2

2个回答

最新问题

这个子查询可以使用索引吗？

问题描述 投票：5回答：2

2个回答

最新问题

问题描述投票：5回答：2