我正在尝试使用 NER 从职位发布中提取关键字(标签)。这可以是
React, AWS, Team Building, Marketing
. 的任何内容
在 SpaCy 中训练自定义模型后,我遇到了一个问题 - 提取的标签未在所有数据中统一/规范化。
例如,如果职位发布是关于
frontend development
,NER可以通过多种方式(取决于职位描述)提取关键字frontend
,例如:Frontend
、Front End
、Front-End
、front-end
和等等。
是否有一种可靠的方法来标准化/统一提取的关键字?所有的关键词都直接进入数据库,每个关键词的所有变体,我最终会得到太多的噪音。
解决该问题的一种方法是创建映射,例如:
"Frontend": ["Front End", "Front-End", "front-end"]
但这种方法似乎不太聪明。也许在 SpaCy 本身有一个选项来规范化标签?