utf8mb4_unicode_ci 和 utf8mb4_0900_ai_ci 有什么区别

问题描述 投票:0回答:1

mysql中

utf8mb4_0900_ai_ci
utf8_unicode_ci
数据库文本编码有什么区别(特别是在性能方面)?

更新:

utf8mb4_unicode_ci 和 utf8mb4_0900_ai_ci 之间有类似的区别吗?

mysql unicode
1个回答
79
投票
  • 编码是相同的。也就是说,字节看起来是一样的。
  • 字符集不同。 utf8mb4 有更多字符。
  • 排序规则(如何进行比较)是不同的。
  • 性能不同,但并不重要。

utf8_unicode_ci
表示
CHARACTER SET utf8
,仅包含 1、2 和 3 字节 UTF-8 字符。因此它排除了大多数表情符号和一些汉字。

utf8mb4_unicode_ci
意味着
CHARACTER SET utf8mb4
是 4 字节
COLLATION
对应的
CHARACTER SET utf8mb4

Unicode 组织多年来一直在不断发展该规范。以下是从其“版本”到 MySQL 排序规则的映射:

4.0   _unicode_
5.2.0 _unicode_520_ (Unicode 2009; MySQL GA 5.6 2013)
9.0   _0900_
14.0  _uca1400_ai_ci etc.  as/ai and cs/ci (MariaDB-10.10, not MySQL)

大多数差异将出现在大多数人从未遇到过的领域。一个例子:在某些时候,一项更改允许表情符号以某种方式进行区分和排序。

后缀(MySQL 文档):

_bin      -- just compare the bits; don't consider case folding, accents, etc
_ci       -- explicitly case insensitive (A=a) and implicitly accent insensitive (a=á)
_ai_ci    -- explicitly case insensitive and accent insensitive
_as (etc) -- accent-sensitive (etc)

性能:

_bin         -- simple, fast
_general_ci  -- fails to compare multiple letters; eg ss=ß, so somewhat fast
...          -- slower
_900_        -- (8.0) much faster because of a rewrite

但是:排序速度通常是查询中最不重要的性能问题。

INDEXes
JOINs
、子查询、表扫描等对性能更为关键。

© www.soinside.com 2019 - 2024. All rights reserved.