我们目前正在为我们的医疗公司集成ICD10-CM,以用于患者诊断。 ICD10-CM是用于诊断的编码系统。
我试图以描述代码对的形式导入ICD10-CM数据,但是显然,由于AutoML需要更多文本用于该代码(标签),因此它不起作用。我在Kaggle上找到了一个数据集,但它仅包含ICD10网站的hrefs。我确实发现该网站包含与可用于训练我们所需模型的代码相关的多个文本和说明。
Kaggle数据集:https://www.kaggle.com/shamssam/icd10datacom
来自ICD10data.com的页面示例:https://www.icd10data.com/ICD10CM/Codes/A00-B99/A15-A19/A17-/A17.0
最值得注意的字段是:-近似同义词-临床信息-诊断指标
如果我从这些页面中的句子中创建一个数据集并将它们分配给它们的代码(标签),那么对于AutoML数据集培训是否足够?因为每个标签最终将有2个或更多文本,而不是一个文本,但与演示/教程中的代码不同,每个代码肯定仍少于100个文本。
[根据我所看到的here,疾病代码具有树状结构,例如,所有L00-L99代码均指“皮肤和皮下组织疾病”。同时,L00-L08代码指的是“皮肤和皮下组织的感染”,依此类推。
我的意思是,问题不是90万个用于90000个不同独立标签的示例,而是一个决策树(您可以根据上一个决策进行多个决策:第一步是从大约15个最笼统的类别中选择哪一个适合最好,然后选择哪个子类别,等等。]
从这种意义上讲,如果您无法实现考虑到所有这些因素的经过特殊设计的决策树模型,则autoML可能不是最好的产品。
使用autoML的另一种方法是针对每个决策分别进行训练,然后组合不同的模型。这对于第一层决策很容易工作,但是会成倍地耗费时间(为了能够更准确地预测精度,要训练的模型数量会成倍增长,准确地说,我的意思是确定它是L00-L08 L00-L99)。
我希望这可以帮助您更好地理解问题以及可以采用的不同方法!