根据它们的含义比较文[关闭]

问题描述 投票:-1回答:1

我们的文档(Word和纯文本),可以包括多达1000,2000,甚至更多的项目池。每个文档可能包含数千字。有给我们,我们应该从池中找到最接近的匹配这个参考文献语义一个参考文件。

首先,我们使用SQL服务器2017年的语义搜索功能,但它没有返回超过10条记录这是一个限制!还有什么其他的技术或工具都在那里,在市场上达到这个目的。我们更愿意利用微软的认知工具和服务,但我们愿意接受任何其他选项,包括开源的,可以帮助。

nlp azure-machine-learning-studio azure-cognitive-services
1个回答
1
投票

我建议,如果文件是一个技术性的寻找到TF-IDF方法。 TF-间接火力看一个文档中的术语(TF)的频率和与该逆文档频率(IDF),在整体语料库中的术语的稀缺的量度相乘。思想有:经常使用的一个词,但在整体语料很很少使用,很可能使该文档的意义方面很重要。然后,相似性度量(如余弦相似性)被施加到TFIDF找到具有相似轮廓的文件在TFIDF分数术语(即类似的过度使用的相对独特的术语)

如果文本是在自然界中较少的技术,你可以看看字嵌入作为Document2Vec方法,例如 - 基本上,他们使用的培训组与多维向量。这些多维向量要拍摄的话,这意味着你不依赖于相同的关键字来使用(这是与TFIDF的情况下)的意思。

现有的实现是各地(特别是基于Python的),但Azure的大概可以促进这些技术,以及(C.F. HDInsight https://docs.microsoft.com/en-us/azure/architecture/data-guide/technology-choices/natural-language-processing)。您还可以查找ElasticSearch,做一些事情开箱。

© www.soinside.com 2019 - 2024. All rights reserved.