据我了解,Unicode字符有不同的表示。
例如,代码点或十六进制字节(这两种表示并不总是如果使用UTF-8编码相同)。
如果我想寻找一个可见的Unicode字符(例如,汉
)我就可以把它复制和搜索。这个工程,即使我不知道它的基本Unicode表示。但对于这可能不容易看到其他字符,如zeros width space,这种方式不能很好地工作。对于这些字符,我们可能想使用它的代码点搜索。
如果我知道有一个字符的代码点,你如何使用正则表达式我寻找它崇高的文本?我想强调崇高的文本,因为不同的编辑器可以使用不同的格式。
对于Unicode字符,其code point是CODE_POINT
(代码点必须是十六进制格式),我们可以放心地使用的格式\x{CODE_POINT}
的正则表达式搜索。
对于Unicode字符中代码点可以容纳两个十六进制数字,它是好的使用\x
没有花括号,但对于那些字符,其码点超过两个十六进制数字,你必须使用\x
其次是大括号。
例如,为了找出字符A
,您可以使用\x{41}
或\x41
来搜索。
再举一个例子,为了找到我
(根据here,它的代码点是U+6211
),你必须使用\x{6211}
搜索它,而不是\x6211
的(见下图)。如果你使用\x6211
,你不会找到的字符我
。