我在Discovery系列上工作,我从未接受过培训。当我在我的集合上启动自然语言查询时,在检索到的文档的result_metadata中,我看到2个概念:得分和置信度:“置信度”:0.0847209066468392,“得分”:3.4830062,标记“retrieval_details”具有值“ document_retrieval_strategy“:”未经训练“
在文档中,首先写出“对于训练有素和未经训练的私人收藏将返回置信度得分”,并且“未经训练的document_retrieval_strategy对结果的置信度得分是对文档结果的相关性的无监督估计。对于查询;它不能与训练集合返回的分数互换。训练有素的集合可以提供比未经训练的集合更好的自然语言查询答案。“准确地说:这是什么意思?如何计算置信度分数?我应该使用哪种结果来获得最相关的文件:得分还是信心?
你需要有信心。决不应该使用分数来定义阈值,因为它是相对计算。
还建议使用“document_retrieval_strategy”作为阈值的一部分,对每个策略具有不同的阈值,或者至少一个用于训练,一个用于未训练,因为根据所应用的策略处理置信度的方式将是不同的。
This post可以为您提供有关如何定义阈值的一些想法。