我对自然语言处理感兴趣。我想知道是否有一种众所周知的算法,可以在文本中将名字和姓氏确定为一个实体。
例如,如果我们有这个:
Last week John Wayne went to Europe.
[我希望有一个标记器,给出:“ Last”,“ Week”,John Wayne“,” went“,” to“,” Europe“。
感谢您的任何帮助。
这是命名条目识别的重要组成部分,大多数NER算法(大多数情况下)都是开箱即用的。例如,我通过Stanford NER system's web interface运行了您的句子,然后得到:
Last week <PERSON>John Wayne</PERSON> went to <LOCATION>Europe</LOCATION>.
取决于所使用的算法,输出的格式可能不同。最常见的格式是IOB。
如果文本中的字符是著名人物,您可以这样做:
在您的文本上运行伊利诺伊州Wikifier:例如,在您的示例上运行它:http://cogcomp.cs.illinois.edu/demo/wikify/?id=25
将Wikifier链接到同一网页的所有单词组合在一起;例如,在您的示例中,输出将如下所示:“上周约翰·韦恩去了欧洲。”您也可以将其保存在完成组合的位置。
现在您可以对文本进行任何操作,例如将其提供给令牌生成器!