深度学习中的词嵌入如何工作?

问题描述 投票:0回答:1

我对词嵌入有一个非常基本的怀疑。我的理解是,单词嵌入用于在不丢失上下文的情况下以数字格式表示文本数据,这对于训练深度模型非常有帮助。

现在我的问题是,词嵌入算法是否需要学习一次所有数据,然后以数字格式表示每个记录?否则,将在知道其他记录的情况下分别代表每个记录。

Tensorflow代码:

enter image description here

这是我对示例代码所做的实验,其中嵌入独立地将数据重新构造为指定的维度。

我的理解正确吗?

tensorflow deep-learning word-embedding
1个回答
0
投票

不,它不需要一次学习所有数据,然后以数字格式表示每个记录,这是单独完成的。您所做的是正确的,但是自然语言处理有很多方法,我也可以向您推荐一个好方法,就是将每个字母转换为数字,因此您可以逐个字母地使用预测字母,这是真的吗?不会很快,但是可以保证良好的准确性,因为字母的词汇量少于单词的词汇量,可能是这样的:

vocab = set( your_text ) # extract each distinct letter
vocab_to_int = {l:i for i,l in enumerate(vocab)} # transforms letter to number
int_to_vocab = {i:l for i,l in enumerate(vocab)} # do the inverse

transformed_text = [vocab_to_int[l] for l in your_text] # all text transformed
© www.soinside.com 2019 - 2024. All rights reserved.