如何将令牌化应用于TensorFlow数据集?

问题描述 投票:0回答:1

我正在使用cnn_dailymail数据集,它是TensorFlow Datasets的一部分。我的目标是在对数据集应用一些文本预处理步骤后标记该数据集。

我按如下方式访问和预处理数据集:

!pip install tensorflow-gpu==2.0.0-alpha0
import tensorflow as tf
import tensorflow_datasets as tfds

data, info = tfds.load('cnn_dailymail', with_info=True)
train_data, test_data = data['train'], data['test']

def map_fn(x, start=tf.constant('<start>'), end=tf.constant('<end>')):
   strings = [start, x['highlights'], end]
   x['highlights'] = tf.strings.join(strings, separator=' ')
   return x

train_data_preproc = train_data.map(map_fn)
elem, = train_data_preproc.take(1)
elem['highlights'].numpy()
# b'<start> mother announced as imedeen ambassador . ...

为了标记数据集,我遇到了tfds.features.text.Tokenizer函数(另请参见here)。但是,这并不符合我想要的方式:

tokenizer = tfds.features.text.Tokenizer(alphanum_only=False, reserved_tokens=['<start>', '<end>'])
tokenizer.tokenize(elem['highlights'].numpy())
# ['<start>', ' ', 'mother', ' ', 'announced', ' ', 'as', ' ', 'imedeen', ' ', 'ambassador', ' . ',...]

我希望令牌生成器仅在空白上分割,而不是将空白视为单独的令牌。有没有办法做到这一点?最好创建我自己的令牌生成器函数,然后使用dataset.map()函数应用它吗?谢谢!

python-3.x tensorflow tokenize tensorflow-datasets
1个回答
0
投票

对于点击此链接的读者...

请在Tensorlfow中找到我的要点,这可能有助于令牌化。

链接:https://gist.github.com/Mageswaran1989/70fd26af52ca4afb86e611f84ac83e97#file-text_preprocessing-ipynb

有不同的可用选项:

© www.soinside.com 2019 - 2024. All rights reserved.