如何在3000-4000字的大型文档中进行语言表示以进行基于查询的检索?

问题描述 投票:0回答:1

我正在尝试进行语义搜索以从非结构化法语文档的数据集中检索相似的文档。

  • 这些文档未分类,并且是每个文档包含300-3000个单词的模板。
  • 我正在使用gensim使用doc2vec来查找具有300个维度和5个数据集窗口的段落嵌入。
  • 然后我将最多5个单词的搜索查询转换为具有300个维度的向量,并比较余弦距离以找到靠近搜索查询的文档。

我收效不好。请提出一些进行语义搜索的策略。我试图通过进行rake关键字提取来减少数据集中的单词数。

search nlp gensim cosine-similarity doc2vec
1个回答
0
投票

如果查询太短而无法被doc2vec嵌入,则结果较差的原因。如果您只关心性能,我建议您使用一些现成的信息检索工具,例如Lucene。

如果您想使用神经网络和嵌入,可以执行以下操作:

  • 仅使用词嵌入,例如,来自FastText。删除查询和文档中的停用词,并用平均词嵌入表示它们,并按余弦距离进行比较。

  • 如果您不太在乎效率,也可以尝试使用多语言BERT(在Transformers库中可用)或全新的法语模型CamemBERT。在这种情况下,您只需采用[cls]向量并对它们进行余弦距离。

© www.soinside.com 2019 - 2024. All rights reserved.