$\theta$) ' ?

问题描述 投票:0回答:1
Does $\theta$ represent a maximum likelihood estimator or a language model ?

Can someone please explain this difference between a language model and $\theta$ in depth ?

Thanks in advance !

I know that if X denotes a text , p(X) denotes the language model of the text. And most often , we use maximum likelihood estimation to estimate the language model. But in many cases , I find a ...
nlp stanford-nlp information-retrieval n-gram language-model
1个回答
1
投票

\theta我知道,如果X表示一个文本,p(X)表示该文本的语言模型。而大多数情况下,我们使用最大似然估计法来估计语言模型。但在很多情况下,我发现有一个参数$\theta$用来表示语言模型。我不明白这个$\theta$的含义。例如,对于一个集合中的文档d,$\theta$有什么作用'p(d标准的机器学习符号表示(严格来说)一组参数(值),通常更常见的是参数向量。

这个符号 P(Y|X;\theta) 是将y值(如MNIST数字标签)理解为通过x值(如MNIST数字的输入图像),在一个训练有素的模型的帮助下,从x值(如MNIST数字的输入图像)中预测出来,该模型是在注释的(X,Y)对上训练出来的。这个模型 的参数为 \theta. 显然,如果训练算法发生变化,参数向量也会发生变化。\theta.

这些参数向量的结构通常由它们所关联的模型来解释,例如对于多层神经网络,它们表示最初随机分配的实值向量,然后在每次迭代时通过梯度下降更新。

对于基于词生成的语言模型,它们指的是一个词的概率。v 顺口溜 u,这意味着每个元素都是一个哈希表中的条目,其形式为 (u, v) --> count(u.v)/count(u).这些概率是从一个 训练 收集。C 的文件,因此,它们基本上成了一个 "大 "字。训练集的函数. 对于不同的集合,这些概率值会有所不同。

因此,通常的惯例是写成 P(w_n|P_w_{n-1};\theta),这基本上说明这些词的继承概率是 参数化\theta.

类似的论点也适用于信息检索中的文档级语言模型,其中权重基本上表示从文档中取样术语的概率。

© www.soinside.com 2019 - 2024. All rights reserved.