IBM Watson NLC-培训了20,000多个文本示例？

问题描述投票：0回答：1

我们目前正在开发一种系统，该系统将从文本输入中返回ICD10-CM代码（医疗/诊断编码系统）。范例

问题是，ICD10-CM具有70,000至100,000个代码，因此在我从.csv文件中上传所有这些文本示例后，它不会让我训练模型。

使用多个模型是一种解决方案，还是应该切换到Google的AutoML？

machine-learning

nlp

ibm-watson

nl-classifier

1个回答

0
投票

如果您有70至100k的代码或类，则仅用20k的示例就无法训练有用的模型。为了进行比较，ImageNet数据集具有2万个类别，但也有1400万个示例。

我不知道ICD10-CM是否具有更广泛的类别，但如果可以，您可以训练模型来预测这些。

[另一种选择是将自己限制为示例中出现至少100次的代码，并将所有其他代码放在一个类中。这意味着您将有很多输入，您将无法为其返回代码。

无论如何，出于实际医疗目的，如果仅将您的模型与2万个示例一起使用，将很危险。