我想知道解析句子的主要目的是什么,例如我们在训练机器翻译中得到句子的所有POS标签?我以为我们只需要对句子进行标记化,然后将其输入神经网络进行训练?拥有POS标签的目的是什么?如何在代码中实现机器翻译模型的培训?
我似乎无法找到任何例子。请协助
如果您通过拆分句子只有一个标记化的单词,则只能逐字逐句。
例如,你有两句话,[我喜欢咖啡],[我喜欢牛奶]。
字典可能是[I],[爱],[咖啡],[喜欢],[牛奶]被称为包含5个维度的词袋。
想象一下,你只能通过词汇在字典中制作语言。您的语言需要多少维度?
它的尺寸太大了。
在这种情况下,如果您使用POS标签创建语言模型,则可以减少维度。
pic 1.你需要9个维度才能代表9个单词。
PIC2。你只需要[3,2] - 维度代表9个单词。