如何为Tensorflow 2.0+中的分类列创建嵌入(特别是令牌到ID映射?)>

问题描述 投票:1回答:1

我有一个同时具有分类和浮点dtypes的csv。我要执行以下操作:

  1. 对于每个分类列,我将使用熊猫来计算列中存在的唯一值(pd.unique())。说u_l作为专栏
  2. 我将使用len(u_l)决定我要嵌入的特定类别列使用的嵌入尺寸(此步骤是我无法使用tensorflow_transform的原因)
  3. [我想创建一个可以将category (token)值映射到嵌入索引的有状态节点,因此随后我可以从我在步骤2中创建的嵌入矩阵中查找嵌入。
  4. 我目前不知道该怎么做。我看到的一个非常优雅的解决方案是使用tensorflow_datasets:

  1. encoder = tfds.features.text.TokenTextEncoder(u_l,decode_token_separator=' ')
  2. 使用空格定界符(c_l)连接整个列(c_l现在是一个字符串,然后使用encoder.encode(c_l)
  3. 这是一个非常基本的东西,我认为tensorflow可以相对轻松地完成。请引导我找到正确的解决方案

我有一个同时具有分类和浮点dtypes的csv。我要执行以下操作:对于每个分类列,我将使用pandas来计算出现在...

tensorflow tensorflow2.0 tensorflow-datasets word-embedding
1个回答
© www.soinside.com 2019 - 2024. All rights reserved.