对于序列标记任务,我的训练数据和标记如下所示:
train_data=[['p','l','a','y','s']
train_labels=[['<p>','<l>','<a>','<y*>','<s*>']]
如何使用令牌生成器并为数据中的每个序列生成表示形式。传统的分词器忽略诸如<p>
之类的标签。它仅创建标准字符的词汇表。
如果我正确地回答了您的问题,这可以解决问题。如果我弄错了,请告诉我,以便我可以相应地编辑答案
from keras.preprocessing.text import Tokenizer
tk = Tokenizer(num_words=None, char_level=True)
tk.fit_on_texts(texts)
texts
在哪里是实际文本。
您可以使用以下方法检查词汇表
tk.word_index