我可以使用高棉语言的标记化输入文件和自定义词汇文件从头开始对BERT模型进行预训练吗？]

Question

首先，您似乎只有很少的训练数据（您提到的词汇量是649）。 BERT是一个庞大的模型，需要大量的训练数据。谷歌发布的英语模型至少在整个维基百科上都经过了培训。考虑一下！

Answer 1

首先，您似乎只有很少的训练数据（您提到的词汇量是649）。 BERT是一个庞大的模型，需要大量的训练数据。谷歌发布的英语模型至少在整个维基百科上都经过了培训。考虑一下！

BERT使用一种称为WordPiece的东西，可以保证固定的词汇量。稀有单词会像这样被拆分：Jet makers feud over seat width with big orders at stake转换为wordPiece as：_J et _makers _fe ud _over _seat _width _with _big _orders _at _stake。

WordPieceTokenizer.tokenize(text)接受由空格预加符号的文本，因此您应更改BasicTokenizer，它由您的特定令牌生成器在WordPieceTokenizer之前运行，该令牌应按空格分隔令牌。要训练自己的WorPiece-Tookenizer，请看sentenePiece，它在bpe模式下与WordPiece基本相同。然后，您可以从WordPiece模型中导出词汇表。

我可以使用高棉语言的标记化输入文件和自定义词汇文件从头开始对BERT模型进行预训练吗？]

问题描述投票：2回答：1

脚本修改

结果/输出

1个回答

最新问题

我可以使用高棉语言的标记化输入文件和自定义词汇文件从头开始对BERT模型进行预训练吗？]

问题描述 投票：2回答：1

脚本修改

结果/输出

1个回答

最新问题

问题描述投票：2回答：1