关于使用本体进行文本分类的问题

我想使用本体论（NIF）对短文本进行分类（与神经科学相关）。我已经阅读了一些论文，但没有一篇涉及执行基于本体的分类的整个过程。因此，我想仔细检查一下是否正确：

特征提取：首先，我们将使用本体使用本体概念对文本进行注释（标记）。我们将使用本体中那些术语的类来解析文本并注释可从本体中找到的术语。

我猜可以通过使用诸如在本体术语和文本中的术语之间寻找语义相似性的技术来提高注释过程的准确性。另外，通过使用lemmatization之类的技术。

使用本体和基于规则的分类系统，无需学习，我们可以迈向分类。

然后，在分类阶段，由于我们使用的是基于规则的分类器，因此我们将根据分配给文本的类对文本进行分类。它是否正确？另外，为了减少分类中使用的标签（类）的数量，我们可以在本体中上移并在注释中使用超类吗？

我的另一个问题是：在分类中使用本体是否有足够的好处？因为我在a paper中读到，使用本体实际上会降低准确性！这些好处是什么？使用本体中的有意义的标记可以使我们做到那些随意的术语不能做什么？

0
投票

@@ Paul Brown，@ RFNO，您的回答确实很有帮助。感谢那。实际上，根据您的建议，我有一个问题。本体应以哪种格式在python中加载？ OWL或RDF或任何其他格式？就像@RFNO提到的那样，我们如何确定文本的每个术语与本体中每个概念之间的相似性。我知道余弦相似度可以做到这一点，但是我们如何针对每个测试样本执行此操作，以根据相似度分数最终预测标签。请帮我解决一下这个。预先感谢。

问题描述投票：0回答：1

1个回答

最新问题

关于使用本体进行文本分类的问题

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1