我有一个包含文本段和相应标签的标记数据集。每个标签由三部分组成,并且可以将多个或零个标签分配给给定的文本段。
Sample Data is given below:
text segment action performed person
--- --- --- ---
"I went outside to play and not drink." {play,drink} {yes,no} {1st,1st}
"He is not playing." play no 3rd
"The weather is cold today." N/A N/A N/A
任务是为任何给定的文本段预测标签,其中每个标签由三个部分(动作,执行,人员)组成,一个文本段可能有零个或多个标签。
有十五个分类器,两个分类用于执行,两个分类。带注释的数据大小为6000个文本段,其中4000个文本段至少分配了一个标签。
这种文本分类称为什么类型(多类标签除外)?
而且,对于这种类型的分类问题,建议使用哪种分类方法?
这不是分类问题。尽管您可能为此目的折磨分类模型,但是您需要的NLP技术是“依赖关系解析”和“语义角色标记”。 Spacy是一个很好的用于进行依赖项解析的python库。