$\theta$) ' ?

问题描述投票：0回答：1

Does $\theta$ represent a maximum likelihood estimator or a language model ?

Can someone please explain this difference between a language model and $\theta$ in depth ?

Thanks in advance !

I know that if X denotes a text , p(X) denotes the language model of the text. And most often , we use maximum likelihood estimation to estimate the language model. But in many cases , I find a ...

nlp

stanford-nlp

information-retrieval

n-gram

language-model

1个回答

1
投票

\theta我知道，如果X表示一个文本，p(X)表示该文本的语言模型。而大多数情况下，我们使用最大似然估计法来估计语言模型。但在很多情况下，我发现有一个参数$\theta$用来表示语言模型。我不明白这个$\theta$的含义。例如，对于一个集合中的文档d，$\theta$有什么作用'p(d标准的机器学习符号表示(严格来说)一组参数(值)，通常更常见的是参数向量。

这个符号 P(Y|X;\theta) 是将y值（如MNIST数字标签）理解为通过x值（如MNIST数字的输入图像），在一个训练有素的模型的帮助下，从x值（如MNIST数字的输入图像）中预测出来，该模型是在注释的（X,Y）对上训练出来的。这个模型 的参数为 \theta. 显然，如果训练算法发生变化，参数向量也会发生变化。\theta.

这些参数向量的结构通常由它们所关联的模型来解释，例如对于多层神经网络，它们表示最初随机分配的实值向量，然后在每次迭代时通过梯度下降更新。

对于基于词生成的语言模型，它们指的是一个词的概率。v 顺口溜 u，这意味着每个元素都是一个哈希表中的条目，其形式为 (u, v) --> count(u.v)/count(u).这些概率是从一个训练收集。C 的文件，因此，它们基本上成了一个 "大 "字。训练集的函数. 对于不同的集合，这些概率值会有所不同。

因此，通常的惯例是写成 P(w_n|P_w_{n-1};\theta)，这基本上说明这些词的继承概率是 参数化 由 \theta.

类似的论点也适用于信息检索中的文档级语言模型，其中权重基本上表示从文档中取样术语的概率。

$\theta$) ' ?

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1