我打电话给Tidy.parse后,某些字符会被破坏。两个例子是:'而不是'和〜而不是〜
我猜这些必须来自Word或类似的东西,但整洁处理它们非常糟糕。具体来说,它将它们转换为变音符号的各个实体表示,然后在我的过程中转换为无意义的垃圾。我确定还有其他人,但这些是我到目前为止找到的。是否有任何已知的方法可以将这些转换为手头或忽略它们作为整洁的一部分?
Tidy tidy = new Tidy();
tidy.setXHTML(true);
tidy.setForceOutput(true);
tidy.parse(inputStream, outputStream);
打印出配置后,我可以看到输入和输出编码没有像我原先想象的那样设置为UTF-8所以我只需添加这个:
tidy.setInputEncoding("UTF-8");
tidy.setOutputEncoding("UTF-8");