当我使用 tokenizer 编码文本并使用“do_basic_tokenize=False”时,我发现了两个不同的结果。 但是当我设置‘do_basic_tokenize=True’时,结果是一样的。
此文本为“豪华酒店扩张仍在继续——随着北美主要豪华酒店在整个亚洲不断扩张,丽思卡尔顿酒店公司在印度尼西亚插上了另一面旗帜。”
你能帮我吗?
我想知道为什么结果不同?
根据这篇文章的答案,这种行为是无意的,可能取决于您使用的特定版本。
在 Huggingface 网站上,您还可以找到一些关于此问题的讨论(或不同型号上的相同问题),特别是这里和这里。
后一个似乎暗示差异确实是由于标记化略有不同造成的,因为您说差异仅发生在
do_basic_tokenize