从句子中提取关系概念

Question

是否有当前模型或我如何训练一个模型，该模型涉及两个主题，如：

[减数分裂]是一种[细胞分裂] ......

并决定一个是另一个的孩子或父母概念？在这种情况下，细胞分裂是减数分裂的父母。

Answer 1

是否已经确定了主题，即，您是否事先知道每个句子的单词或单词序列代表主语？如果你这样做，我认为你正在寻找的是关系提取。

无监督的方法

一种简单的无监督方法是使用词性标签来寻找模式，例如：

首先，您为每个句子标记并获取PoS标记：

sentence = "Meiosis is a type of cell division."
tokens = nltk.word_tokenize("Meiosis is a type of cell division.")
tokens
['Meiosis', 'is', 'a', 'type', 'of', 'cell', 'division', '.']

token_pos = nltk.pos_tag(tokens)
token_pos
[('Meiosis', 'NN'), ('is', 'VBZ'), ('a', 'DT'), ('type', 'NN'), ('of', 'IN'),
 ('cell', 'NN'), ('division', 'NN'), ('.', '.')]

然后构建一个解析器，根据PoS标记解析一个特定的模式，这是一种调解两个主题/实体/名词之间关系的模式：

verb = "<VB|VBD|VBG|VBN|VBP|VBZ>*<RB|RBR|RBS>*"
word = "<NN|NNS|NNP|NNPS|JJ|JJR|JJS|RB|WP>"
preposition = "<IN>"
rel_pattern = "({}|{}{}|{}{}*{})+ ".format(verb, verb, preposition, verb, word, preposition)
grammar_long = '''REL_PHRASE: {%s}''' % rel_pattern
reverb_pattern = nltk.RegexpParser(grammar_long)

注意：此模式基于本文：http://www.aclweb.org/anthology/D11-1142

然后，您可以将解析器应用于所有标记/ PoS标记，但属于主题/实体的标记除外：

reverb_pattern.parse(token_pos[1:5])
Tree('S', [Tree('REL_PHRASE', [('is', 'VBZ')]), ('a', 'DT'), ('type', 'NN'), ('of', 'IN')])

如果解析器输出REL_PHRASE，则两个主体之间存在关系。然后，您需要分析所有这些模式，并决定哪些代表parent-of关系。例如，实现这一目标的一种方法是将它们聚类。

监督方法

如果您的句子已经被标记为主题/实体和关系类型，即监督场景，则可以构建模型，其中特征可以是两个主体/实体之间的单词以及标签的关系类型。

sent: "[Meiosis] is a type of [cell division.]"
label: parent of

您可以构建is a type of的矢量表示，并训练分类器以预测标签parent of。你需要很多例子，它还取决于你有多少不同的类/标签。

从句子中提取关系概念

问题描述投票：3回答：1

1个回答

最新问题

从句子中提取关系概念

问题描述 投票：3回答：1

1个回答

最新问题

问题描述投票：3回答：1