根据它们的含义比较文[关闭]

问题描述投票：-1回答：1

我们的文档（Word和纯文本），可以包括多达1000，2000，甚至更多的项目池。每个文档可能包含数千字。有给我们，我们应该从池中找到最接近的匹配这个参考文献语义一个参考文件。

首先，我们使用SQL服务器2017年的语义搜索功能，但它没有返回超过10条记录这是一个限制！还有什么其他的技术或工具都在那里，在市场上达到这个目的。我们更愿意利用微软的认知工具和服务，但我们愿意接受任何其他选项，包括开源的，可以帮助。

nlp

azure-machine-learning-studio

azure-cognitive-services

1个回答

1
投票

我建议，如果文件是一个技术性的寻找到TF-IDF方法。 TF-间接火力看一个文档中的术语（TF）的频率和与该逆文档频率（IDF），在整体语料库中的术语的稀缺的量度相乘。思想有：经常使用的一个词，但在整体语料很很少使用，很可能使该文档的意义方面很重要。然后，相似性度量（如余弦相似性）被施加到TFIDF找到具有相似轮廓的文件在TFIDF分数术语（即类似的过度使用的相对独特的术语）

如果文本是在自然界中较少的技术，你可以看看字嵌入作为Document2Vec方法，例如 - 基本上，他们使用的培训组与多维向量。这些多维向量要拍摄的话，这意味着你不依赖于相同的关键字来使用（这是与TFIDF的情况下）的意思。

现有的实现是各地（特别是基于Python的），但Azure的大概可以促进这些技术，以及（C.F. HDInsight https://docs.microsoft.com/en-us/azure/architecture/data-guide/technology-choices/natural-language-processing）。您还可以查找ElasticSearch，做一些事情开箱。

根据它们的含义比较文[关闭]

问题描述 投票：-1回答：1

1个回答

最新问题

问题描述投票：-1回答：1