将NLP依赖关系树转换为二进制树？

问题描述投票：0回答：1

Spacy（以及Core NLP和其他解析器）输出的依存关系树可以包含不同数量的子级。例如，每个节点都具有.lefts和.rights关系（多个左分支和多个右分支）：

模式模式匹配算法在其节点具有固定arset集的谓词树上工作时，相当简单（且效率更高）。

从这些多树到二叉树有任何标准转换吗？

例如，在此示例中，我们具有两个.lefts=[just, journal]和一个.right=[piece]的“发布”。这样的句子（通常）可以转换为严格的二叉树表示法（每个节点有0或1个左分支，以及0或1个右分支），而不会损失太多信息吗？或者多树对于正确携带信息必不可少？

nlp

nltk

stanford-nlp

spacy

1个回答

0
投票

immediate constituents和dependency trees在语言分析中有不同类型的树（尽管您通常不会在依赖语法中谈论trees）。前者通常是二进制的（尽管没有确凿的理由必须这样做），因为每个类别都分为两个子类别，例如

S-> NP VP NP-> det N1 N1->调整N1 |名词

依赖项本质上通常不是二进制的，因此没有简单的方法可以将它们转换为二进制结构。唯一固定的约定是，每个单词都将完全依赖于另一个单词，但是取决于它本身可能会有多个单词。

所以，答案基本上是“否”。