HuggingFace 多列标记器

问题描述 投票:0回答:1

我有一个包含 2 个文本列和 1 个输出列的数据集。

 text_a               text_b              output
"This is a bird"    "This is a pencil"       0
"This is a cat"     "This is a pen"          1

我正在读取数据并获取输入和输出列,如下所示:

import pandas as pd
df_train = pd.read_csv("./train.csv")
y_train = list(df_train.pop('output'))
x_train = df_train.values.tolist()

稍后,使用 tokenizer 并用 x_train 来提供它:

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
train_encodings = tokenizer(x_train, truncation=True, padding=True)

在这里,我使用了 text_a 和 text_b 列来为分词器提供数据。但我看到大多数博客都在逐列使用分词器。我只是想知道这是否也是将文本转换为数字表示的有效选项。

multiple-columns tokenize huggingface-tokenizers
1个回答
0
投票

是的,你正在做的是一个有效的方法。在 BERT 中,为模型提供了 2 个句子,如下所示: [CLS] 句子 1 [SEP] 句子 2 [SEP] [PAD] [PAD] [PAD] ..

© www.soinside.com 2019 - 2024. All rights reserved.