如何在3000-4000字的大型文档中进行语言表示以进行基于查询的检索？

问题描述投票：0回答：1

我正在尝试进行语义搜索以从非结构化法语文档的数据集中检索相似的文档。

我收效不好。请提出一些进行语义搜索的策略。我试图通过进行rake关键字提取来减少数据集中的单词数。

nlp

gensim

cosine-similarity

doc2vec

1个回答

0
投票

如果查询太短而无法被doc2vec嵌入，则结果较差的原因。如果您只关心性能，我建议您使用一些现成的信息检索工具，例如Lucene。

如果您想使用神经网络和嵌入，可以执行以下操作：

仅使用词嵌入，例如，来自FastText。删除查询和文档中的停用词，并用平均词嵌入表示它们，并按余弦距离进行比较。
如果您不太在乎效率，也可以尝试使用多语言BERT（在Transformers库中可用）或全新的法语模型CamemBERT。在这种情况下，您只需采用[cls]向量并对它们进行余弦距离。