为什么 Tokenizer 和 TokenizerFast 编码同一个句子会得到不同的结果

问题描述 投票:0回答:1

error1 当我使用 tokenizer 编码文本并使用“do_basic_tokenize=False”时,我发现了两个不同的结果。 但是当我设置‘do_basic_tokenize=True’时,结果是一样的。

此文本为“豪华酒店扩张仍在继续——随着北美主要豪华酒店在整个亚洲不断扩张,丽思卡尔顿酒店公司在印度尼西亚插上了另一面旗帜。”

你能帮我吗?

我想知道为什么结果不同?

tokenize bert-language-model huggingface-tokenizers
1个回答
0
投票

根据这篇文章的答案,这种行为是无意的,可能取决于您使用的特定版本。

在 Huggingface 网站上,您还可以找到一些关于此问题的讨论(或不同型号上的相同问题),特别是这里这里

后一个似乎暗示差异确实是由于标记化略有不同造成的,因为您说差异仅发生在

do_basic_tokenize
选项之一上,所以这是有道理的。

© www.soinside.com 2019 - 2024. All rights reserved.