Spacy(以及Core NLP和其他解析器)输出的依存关系树可以包含不同数量的子级。例如,每个节点都具有.lefts
和.rights
关系(多个左分支和多个右分支):
模式模式匹配算法在其节点具有固定arset集的谓词树上工作时,相当简单(且效率更高)。
从这些多树到二叉树有任何标准转换吗?
例如,在此示例中,我们具有两个.lefts=[just, journal]
和一个.right=[piece]
的“发布”。这样的句子(通常)可以转换为严格的二叉树表示法(每个节点有0或1个左分支,以及0或1个右分支),而不会损失太多信息吗?或者多树对于正确携带信息必不可少?
immediate constituents和dependency trees在语言分析中有不同类型的树(尽管您通常不会在依赖语法中谈论trees)。前者通常是二进制的(尽管没有确凿的理由必须这样做),因为每个类别都分为两个子类别,例如
S-> NP VP NP-> det N1 N1->调整N1 |名词
依赖项本质上通常不是二进制的,因此没有简单的方法可以将它们转换为二进制结构。唯一固定的约定是,每个单词都将完全依赖于另一个单词,但是取决于它本身可能会有多个单词。
所以,答案基本上是“否”。