IBM Watson NLC-培训了20,000多个文本示例?

问题描述 投票:0回答:1

我们目前正在开发一种系统,该系统将从文本输入中返回ICD10-CM代码(医疗/诊断编码系统)。范例

  • 输入“黑眼圈”
  • 返回'H44-地球疾病'

问题是,ICD10-CM具有70,000至100,000个代码,因此在我从.csv文件中上传所有这些文本示例后,它不会让我训练模型。

使用多个模型是一种解决方案,还是应该切换到Google的AutoML?

machine-learning nlp ibm-watson nl-classifier
1个回答
0
投票

如果您有70至100k的代码或类,则仅用20k的示例就无法训练有用的模型。为了进行比较,ImageNet数据集具有2万个类别,但也有1400万个示例。

我不知道ICD10-CM是否具有更广泛的类别,但如果可以,您可以训练模型来预测这些。

[另一种选择是将自己限制为示例中出现至少100次的代码,并将所有其他代码放在一个类中。这意味着您将有很多输入,您将无法为其返回代码。

无论如何,出于实际医疗目的,如果仅将您的模型与2万个示例一起使用,将很危险。

© www.soinside.com 2019 - 2024. All rights reserved.