为什么\ R在Java 8和Java 9之间的正则表达式中表现不同？

Question

以下代码在Java 8和9中编译，但行为不同。

class Simple {
    static String sample = "\nEn un lugar\r\nde la Mancha\nde cuyo nombre\r\nno quiero acordarme";

    public static void main(String args[]){
        String[] chunks = sample.split("\\R\\R");
        for (String chunk: chunks) {
            System.out.println("Chunk : "+chunk);
        }
    }
}

当我用Java 8运行它时，它返回：

Chunk : 
En un lugar
de la Mancha
de cuyo nombre
no quiero acordarme

但是当我使用Java 9运行它时，输出是不同的：

Chunk : 
En un lugar
Chunk : de la Mancha
de cuyo nombre
Chunk : no quiero acordarme

为什么？

Answer 1

Java documentation不符合Unicode标准。 Javadoc误认为\R应该匹配。它写道：

\R任何Unicode换行符序列都等同于\u000D\u000A|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]

那个Java文档是错误的。在其section on R1.6 Line Breaks, Unicode Technical Standard #18 on Regular Expressions明确指出：

强烈建议使用正则表达式元字符，例如“\ R”，以匹配上面列出的所有行结束字符和序列（例如，在＃1中）。这将对应于与以下表达式等效的内容。由于需要避免备份，该表达式稍微复杂一些。
 (?:\u{D A}|(?!\u{D A})[\u{A}-\u{D}\u{85}\u{2028}\u{2029}]

换句话说，它只能匹配两个代码点CR + LF（回车+换行）序列或者来自该组的单个代码点，前提是它不仅仅是一个回车符，然后是一个换行符。那是因为它不允许备份。 CRLF必须是原子的，才能使\R正常运行。

所以Java 9不再符合R1.6强烈推荐的内容。而且，现在它正在做一些它在Java 8中应该做的事情，而不是做的事情。

看起来是时候让谢尔曼（读作：沉雪明）再次大喊大叫。我之前和他一起处理过正式合规的这些细节问题。

Answer 2

这是Java 8中的一个错误，它得到了修复：JDK-8176029 : "Linebreak matcher is not equivalent to the pattern as stated in javadoc"。

另见：Java-8 regex negative lookbehind with `\R`

为什么\ R在Java 8和Java 9之间的正则表达式中表现不同？

问题描述投票：76回答：2

2个回答

最新问题

为什么\ R在Java 8和Java 9之间的正则表达式中表现不同？

问题描述 投票：76回答：2

2个回答

最新问题

问题描述投票：76回答：2