我注意到SQL Server上的PATINDEX(我正在使用2016)给出了奇怪的结果。我怀疑它与排序规则和字符集有关。
我正在尝试使用PATINDEX获取第一个空格或连字符的索引。
在具有默认排序规则SQL_Latin1_General_CP1_CI_AS的数据库上,我得到预期的结果0(未找到):
select PATINDEX('%[ -]%', 'ABC') -- returns 0
select PATINDEX('%[ -]%', N'ABC') -- returns 0
select PATINDEX('%[- ]%', N'ABC') -- returns 0
但是,在具有排序规则Latin1_General_100_BIN的数据库上,我得到一个意外的错误结果,表明在索引1处找到了空格或连字符:
select PATINDEX('%[ -]%', 'ABC') -- returns 0
select PATINDEX('%[ -]%', N'ABC') -- returns 1 (WRONG!)
select PATINDEX('%[- ]%', N'ABC') -- returns 0
总之,我注意到这个显然是错误的结果:
我已经看到了其他类似的问题,但它们没有解决相同的情况,特别是为什么patteren工作在一个校对而不是其他,并且在非unicode字符串上而不是在unicode字符串上。我见过patindex t-sql special characters,它说除了第一个以外的任何位置的' - '字符是LIKE和PATINDEX的范围规格(虽然我没有在SQL Server PATINDEX或Wildcard文档中看到它)。仍然没有解释为什么它在某些配置中工作而不是如图所示的其他配置。
为什么这样不同的PATINDEX和明显错误的结果呢?
你已经提到自己,除了第一个以外的任何位置的' - '字符是(或者更确切地说是)范围规范。 ' -'
的问题在于没有给出范围的结束。因此,让我们找出范围的结尾是什么:
SELECT SV.number, NCHAR(SV.number) TestChar
FROM master..spt_values AS SV
WHERE SV.type = 'p'
AND NCHAR(SV.number) LIKE N'%[ -]%'
返回:
+--------+----------+
| number | TestChar |
+--------+----------+
| 32 | |
| 45 | - |
+--------+----------+
因此,在非二进制排序规则(我使用Latin1_General_CI_AS)中,-
根本不被解释为范围说明符,而是作为文字字符。否则,也将返回32到45之间的字符。因此,只有空格和短划线将返回patindex <> 0.让我们尝试二进制排序规则:
SELECT SV.number, NCHAR(SV.number) TestChar
FROM master..spt_values AS SV
WHERE SV.type = 'p'
AND NCHAR(SV.number) LIKE N'%[ -]%' COLLATE Latin1_General_100_BIN2
返回:
+--------+----------+
| number | TestChar |
+--------+----------+
| 32 | |
| 33 | ! |
| 34 | " |
| 35 | # |
| 36 | $ |
| 37 | % |
| 38 | & |
| 39 | ' |
| 40 | ( |
| 41 | ) |
| 42 | * |
| 43 | + |
| 44 | , |
| 45 | - |
| 46 | . |
| 47 | / |
| 48 | 0 |
| 49 | 1 |
| 50 | 2 |
| 51 | 3 |
| 52 | 4 |
| 53 | 5 |
| 54 | 6 |
| 55 | 7 |
| 56 | 8 |
| 57 | 9 |
| 58 | : |
| 59 | ; |
| 60 | < |
| 61 | = |
| 62 | > |
| 63 | ? |
| 64 | @ |
| 65 | A |
| 66 | B |
| 67 | C |
| 68 | D |
| 69 | E |
| 70 | F |
| 71 | G |
| 72 | H |
| 73 | I |
| 74 | J |
| 75 | K |
| 76 | L |
| 77 | M |
| 78 | N |
| 79 | O |
| 80 | P |
| 81 | Q |
| 82 | R |
| 83 | S |
| 84 | T |
| 85 | U |
| 86 | V |
| 87 | W |
| 88 | X |
| 89 | Y |
| 90 | Z |
| 91 | [ |
| 92 | \ |
| 93 | ] |
+--------+----------+
所以现在它被解释为一个范围,范围包括A-Z
。请注意,它不包含a-z
!当我们使用LIKE N'%[ -z]%'
时,将包含小写字母。在二进制中,范围的结束(当没有指定时)始终是]
,无论范围的开头是什么。
现在,让我们看一下非unicode值的作用:
SELECT SV.number, CHAR(SV.number) TestChar
FROM master..spt_values AS SV
WHERE SV.type = 'p'
AND CHAR(SV.number) LIKE '%[ -]%' COLLATE Latin1_General_100_BIN2
返回:
+--------+----------+
| number | TestChar |
+--------+----------+
| 32 | |
| 45 | - |
+--------+----------+
因此,作为ASCII,破折号再次不被解释为范围运算符。很奇怪,是吗?
顺便说一句,如果你真的想搜索space dash
,你也可以使用PATINDEX(N'% [-]%', N'ABC' COLLATE Latin1_General_BIN2)
。
顺便说一下:如果我们查看Larnu的解决方案:
SELECT SV.number, NCHAR(SV.number) TestChar
FROM master..spt_values AS SV
WHERE SV.type = 'p'
AND CHAR(SV.number) LIKE '%[ --]%' COLLATE Latin1_General_100_BIN2
你会得到:
+--------+----------+
| number | TestChar |
+--------+----------+
| 32 | |
| 33 | ! |
| 34 | " |
| 35 | # |
| 36 | $ |
| 37 | % |
| 38 | & |
| 39 | ' |
| 40 | ( |
| 41 | ) |
| 42 | * |
| 43 | + |
| 44 | , |
| 45 | - |
+--------+----------+
所以你还在评估一个范围。不确定这是不是你想要的,但要注意一些事情。
将连字符加倍,因为它似乎有时被用作运算符之间。
SELECT PATINDEX(N'%[ --]%', 'ABC' COLLATE Latin1_General_100_BIN); --Returns 0
SELECT PATINDEX(N'%[ --]%', N'ABC' COLLATE Latin1_General_100_BIN); --Returns 0
SELECT PATINDEX(N'%[-- ]%', N'ABC' COLLATE Latin1_General_100_BIN); --Returns 0
SELECT PATINDEX(N'%[ --]%', '-ABC' COLLATE Latin1_General_100_BIN); --Returns 1
SELECT PATINDEX(N'%[ --]%', N'ABC-' COLLATE Latin1_General_100_BIN); --Returns 4
SELECT PATINDEX(N'%[-- ]%', N'-ABC' COLLATE Latin1_General_100_BIN); --Returns 0, as the hyphen is at the start, so doesn't need escaping.