深度学习中的词嵌入如何工作？

Question

我对词嵌入有一个非常基本的怀疑。我的理解是，单词嵌入用于在不丢失上下文的情况下以数字格式表示文本数据，这对于训练深度模型非常有帮助。

现在我的问题是，词嵌入算法是否需要学习一次所有数据，然后以数字格式表示每个记录？否则，将在知道其他记录的情况下分别代表每个记录。

Tensorflow代码：

这是我对示例代码所做的实验，其中嵌入独立地将数据重新构造为指定的维度。

我的理解正确吗？

Answer 1

不，它不需要一次学习所有数据，然后以数字格式表示每个记录，这是单独完成的。您所做的是正确的，但是自然语言处理有很多方法，我也可以向您推荐一个好方法，就是将每个字母转换为数字，因此您可以逐个字母地使用预测字母，这是真的吗？不会很快，但是可以保证良好的准确性，因为字母的词汇量少于单词的词汇量，可能是这样的：

vocab = set( your_text ) # extract each distinct letter
vocab_to_int = {l:i for i,l in enumerate(vocab)} # transforms letter to number
int_to_vocab = {i:l for i,l in enumerate(vocab)} # do the inverse

transformed_text = [vocab_to_int[l] for l in your_text] # all text transformed

深度学习中的词嵌入如何工作？

问题描述投票：0回答：1

1个回答

最新问题

深度学习中的词嵌入如何工作？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1