如何从表格中选择每小时计数，包括缺失的时间？

Question

我希望按小时收集计数。但并不是每个小时都出现在我的表格中。

为了确保数据始终包含空时间，我构建了一个小时表，其中包含 2000-2037 年日期时间的小时数。我想我可以将

LEFT JOIN

数据表添加到此表中以跟踪丢失的时间。但我需要帮助才能做到这一点。

表：

date_hour

：

`hour`
2000-01-01 00:00:00
2000-01-01 01:00:00
...
2036-12-31 23:00:00

表

my_data

：

log_date               field1
2015-05-01 00:31:00    1000
2015-05-01 04:19:00    2000    
2015-05-01 05:19:00    1000
2015-05-01 07:19:00    100
2015-05-01 07:35:00    6000

想要的结果：

hour                   count
2015-05-01 00:00:00    1
2015-05-01 01:00:00    0
2015-05-01 02:00:00    0
2015-05-01 03:00:00    0
2015-05-01 04:00:00    1
2015-05-01 05:00:00    1
2015-05-01 06:00:00    0
2015-05-01 07:00:00    2

MySQL 尝试：

SELECT
    dh.hour,
    COUNT(md.*) AS count
FROM
    date_hour dh
    LEFT JOIN my_data md ON dh.hour = ????md.log_date????
WHERE
        dh.hour >= '2015-05-01'
    AND dh.hour <  '2015-05-02'
GROUP BY
    dh.hour
ORDER BY
    dh.hour;

完成这些计数的最有效方法是什么？假设每天有 100k-1MM 记录，目标是一次测量至少 30 天的数据。

Answer 1

可以使用

DATE_FORMAT

去除分钟和秒，例如：

查询

SELECT
    dh.hour,
    COUNT(md.*) AS count
FROM
    date_hour dh LEFT JOIN my_data md 
    ON dh.hour = DATE_FORMAT(md.log_date, "%Y-%m-%d %H:00:00")
WHERE
        dh.hour >= '2015-05-01'
    AND dh.hour <  '2015-05-02'
GROUP BY
    dh.hour
ORDER BY
    dh.hour
;

输出

+------------------------+-----------+
|          hour          |   count   |
+------------------------+-----------+
| 2015-05-01 00:00:00    | 1         |
| 2015-05-01 01:00:00    | 0         |
| 2015-05-01 02:00:00    | 0         |
| 2015-05-01 03:00:00    | 0         |
| 2015-05-01 04:00:00    | 1         |
| 2015-05-01 05:00:00    | 1         |
| 2015-05-01 06:00:00    | 0         |
| 2015-05-01 07:00:00    | 2         |
| ... trailing hours ... | allzeroes |
+------------------------+-----------+

2015-05-01 08:00:00 之后的所有内容均为零（ my_data 中没有数据）

sqlfiddle

Answer 2

如果您对像

LEFT JOIN

这样的函数或任何其他函数的结果进行

DATE_FORMAT

操作，它将产生正确的结果，但它可能会比原来慢得多。如果 @amdixon 的答案中显示的简单方法的性能合适，那么就使用它。

但是，您可以采取一些措施来加快速度。一旦您的表增长到 30M 行（30 天，每天 1M 行），您可能需要考虑它们。

不言而喻，表

date_hour

必须在

hour

列上有一个索引（实际上是主键）。当您使用如下搜索条件时，这将有助于快速找到特定日期的几行：

WHERE
        date_hour.hour >= '2015-05-01 00:00:00'
    AND date_hour.hour <  '2015-05-02 00:00:00'

要记住的另一件重要事情 - 如果给定日期有 1M 行并且需要计算当天的计数，那么服务器必须至少读取这 1M 行。你无法避免这一点。读取 1M 行不会很快，但如果整个表有 30M 行，那么只读取 1M 行显然比读取整个表要好。

因此，服务器应该能够有效地找到特定日期的行（阅读 - 应该有一个索引）。任何在加入时从

log_date

列中动态删除分钟和秒的查询将无法使用索引，因此服务器必须扫描整个表

my_data

。

选项1

在

my_data

.

log_date

上添加索引。将显式过滤器添加到

WHERE

子句。它不会改变结果，但希望能给服务器一个很好的提示，以使用

my_data

.

log_date

上的索引来查找必要的行并避免完全扫描。也许MySQL足够聪明，当你使用

datetime

将

DATE_FORMAT

转换为字符串时，它不会将

date_hour.hour

也转换为字符串进行比较（从而否定了

date_hour.hour

上有索引的事实）。也许不会。我更喜欢以下方法从

datetime

中删除分钟和秒，而不将其转换为字符串。

TIMESTAMPADD(HOUR,
    TIMESTAMPDIFF(HOUR,'2015-01-01 00:00:00',DateTimeValue),
    '2015-01-01 00:00:00')

我们可以使用任何常量来代替“2015-01-01”，只要它没有分钟和秒。可以使用相同的方法将

datetime

截断为任何其他边界 - 分钟、日、周、月、年。

SELECT
    date_hour.hour,
    COUNT(my_data.log_date) AS count
FROM
    date_hour
    LEFT JOIN my_data ON 
        date_hour.hour = TIMESTAMPADD(HOUR, TIMESTAMPDIFF(HOUR,'2015-01-01 00:00:00',my_data.log_date), '2015-01-01 00:00:00')
WHERE
    date_hour.hour   >= '2015-05-01 00:00:00' AND
    date_hour.hour   <  '2015-05-02 00:00:00' AND
    my_data.log_date >= '2015-05-01 00:00:00' AND
    my_data.log_date <  '2015-05-02 00:00:00'
GROUP BY
    date_hour.hour
ORDER BY
    date_hour.hour
;

即使服务器使用

date_hour

和

my_data

上的索引来查找必要的行，它仍然必须根据函数的结果进行连接，并且对于 1M 行，这可能会很困难。最有可能的是，它必须将函数的 1M 结果存储到临时表中，对其进行排序，然后连接。这些类型的排序通常很昂贵，特别是如果它们不是在内存中完成的（对于 1M 行，很可能是在磁盘上完成的）。

选项2

为了进一步优化这一点并避免动态操作

datetime

，我会考虑向

log_hour

表添加一个持久列

my_data

，该列将与主列

log_date

一起填充并包含

 log_date

不带分钟和秒的值。您可以将其视为预先计算或缓存。一旦您在此列上建立了索引

log_hour

，服务器应该能够有效地查找和连接找到的行。查询变得微不足道，它根本不使用

log_date

列，它只使用

log_hour

:

SELECT
    date_hour.hour,
    COUNT(my_data.log_hour) AS count
FROM
    date_hour
    LEFT JOIN my_data ON date_hour.hour = my_data.log_hour
WHERE
    date_hour.hour   >= '2015-05-01 00:00:00' AND
    date_hour.hour   <  '2015-05-02 00:00:00' AND
    my_data.log_hour >= '2015-05-01 00:00:00' AND
    my_data.log_hour <  '2015-05-02 00:00:00'
GROUP BY
    date_hour.hour
ORDER BY
    date_hour.hour
;

Answer 3

如果我想知道今天表中每小时更新的记录数。

选择 EXTRACT(HOUR FROM CREATE_TIMSTM) 作为 HOUR，count(*) 来自 SCHEMA.TABLE 其中 trunc(CREATE_TIMSTM) = trunc(sysdate) 按 EXTRACT（HOUR FROM CREATE_TIMSTM）分组按 EXTRACT（HOUR FROM CREATE_TIMSTM）排序；

如何从表格中选择每小时计数，包括缺失的时间？

问题描述投票：0回答：3

3个回答

最新问题

如何从表格中选择每小时计数，包括缺失的时间？

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3