当使用 pytorch 中预先训练的 BERT 嵌入(然后进行微调)时,是否应该像任何标准 NLP 任务一样对输入模型的文本数据进行预处理?
例如,是否应该执行词干提取、删除低频单词、去大写字母化,或者是否应该将原始文本简单地传递给“transformers.BertTokenizer”?
我认为预处理不会改变你的输出预测。我会尽力解释你提到的每个案例 -
对于套管部分,检查预训练模型
根据训练方式,输出中存在有案例和无案例的 BERT。
BERT 训练通常在原始文本上完成,使用用于 BERT 的 WordPiece 分词器。
因此不需要词干提取、词形还原或类似的 NLP 任务。
词形还原假设形态词分析返回单词的基本形式,而词干提取通常是粗暴地删除词尾或词缀。
在大多数情况下,输入原始文本效果很好。如果您想获得更具体的答案,请分享有关您的用例的示例数据。