使用Doc2Vec训练文档时句子中句点的重要性

Question

怀疑-1

我正在用150000个文档训练Doc2Vec。由于这些文件来自法律领域，因此确实很难清理并将其准备好进行进一步的培训。因此，我决定从文档中删除所有期间。话虽如此，我对doc2vec中Window_size的参数现在如何识别句子感到困惑。问题中提出了两种观点：Doc2Vec: Differentiate Sentence and Document

该算法仅适用于大块文本，不知道句子/段落/文档等可能是什么。
[标记化通常将标点符号（例如句子之间的句点）保留为独立标记，这是很常见的。

因此，如果我采用的消除标点符号（句号）的方法正确，我会感到困惑。请为我提供一些支持性的答案。

怀疑2

我报废的文档范围为500-5500个令牌，因此，我使用一个大小相当均匀的文档来训练doc2vec甚至减少词汇的方法是：考虑一个大小大于1500个令牌的文档，在这种情况下，我使用前50到400个令牌+ 600到1000个令牌+最后250个令牌。这种方法的动机来自与使用BERT进行文档分类有关的一篇论文，其中生成了512个令牌的序列，如下所示。

所以我想知道这个主意是否可以继续进行，还是不建议这样做？

Update-我刚刚在教程链接https://radimrehurek.com/gensim/models/doc2vec.html中看到了gensim使用的common_text语料库，发现该语料库中的文档只是单词的标记，不包含任何标点符号。例如：

from gensim.test.utils import common_texts, common_dictionary, common_corpus

print(common_texts[0:10])

输出：

[['human', 'interface', 'computer'], ['survey', 'user', 'computer', 'system', 'response', 'time'], ['eps', 'user', 'interface', 'system'], ['system', 'human', 'system', 'eps'], ['user', 'response', 'time'], ['trees'], ['graph', 'trees'], ['graph', 'minors', 'trees'], ['graph', 'minors', 'survey']]

https://radimrehurek.com/gensim/auto_examples/tutorials/run_doc2vec_lee.html教程中遵循了相同的步骤。我删除文档中句点的方法是否有效，如果是，那么window参数将如何工作，因为在文档中定义如下：窗口（int，可选）–句子中当前词与预测词之间的最大距离。

Answer 1

有些人将句点和其他标点符号保留为独立的标记，有些则将其删除。

没有明确的“正确”方法，根据您的最终目标，一个或另一个可能在doc-vector质量上略有不同。因此，现在就做对您来说最简单的事情，然后在您有时间的时候再评估替代方法是否有用。

尽管文档中对“句子”的任何引用，但Word2Vec中的Doc2Vec /gensim/ etc类对句子没有任何理解，也对标点符号没有特别的敏感性。他们只是看到您作为语料库中的单个项目传递的令牌列表。因此，如果您要留句号，例如...

['the', 'cat', 'was', 'orange', '.', 'it', 'meowed', '.']

...然后'.'字符串只是另一个伪单词，它将获得一个矢量，并且训练窗口将像其他单词一样贯穿其中。（并且，'meowed'将比'cat'少5个令牌，因此如果window=5会产生一些影响。）

我不太理解您对“使用前50到400个令牌+ 600到1000个令牌+最后250个令牌的含义”。 Doc2Vec最多可以处理10000个令牌的文本。（由于内部实现限制gensim，更多的令牌将被静默忽略。）没有必要或典型地将文档分成较小的块，除非您还有其他一些需要对较小的文本块建模的需求。

微小的common_texts单词列表集是一组虚构的，玩具大小的数据，用于演示一些基本代码的使用-这不是推荐做法的示例。类似地，基于“ Lee”语料库的演示是对一个小而简单的方法的快速介绍，该方法仅不足以显示基本用法和结果。通过simple_preprocess()实用程序方法进行文本标记化是可以尝试的事情，但与所有其他可能性相比，不是``正确''或``最佳''的。

使用Doc2Vec训练文档时句子中句点的重要性

问题描述投票：0回答：1

1个回答

最新问题

使用Doc2Vec训练文档时句子中句点的重要性

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1