我没有在文档中找到任何示例。它只是说:“标准化使用StandardTokenizer提取的令牌。”
文档的含义是什么:“规范化”?
根据API文档:
规范化使用StandardTokenizer提取的标记。
但实际上,答案是:绝对没有。
public class StandardFilter extends TokenFilter {
public StandardFilter(TokenStream in) {
super(in);
}
@Override
public final boolean incrementToken() throws IOException {
return input.incrementToken(); // TODO: add some niceties for the new grammar
}
}
这就像TokenFilter
那样简单。它接收令牌,并将它们再次向后喷出,不变。
在Lucene 2.X中,它对撇号做了一些工作,从首字母缩写词等中删除了点,在3.X和4.X中,它保留了代码以便向后兼容。从5.0开始,已经删除了向后兼容性支持,并且过滤器根本不再做任何事情(尽管它肯定可能在未来)。