在NLP中识别专有名词的策略

11
投票

确定文本中单词的正确词性的任务称为Part of Speech Tagging。例如，Brill tagger使用字典（词汇）单词和上下文规则的混合。我相信这个任务的一些重要的初始词典单词是停用词。一旦你的话语（大部分是正确的）词性，你就可以开始构建更大的结构。 This industry-oriented book区分识别名词短语（NP）和识别命名实体。关于教科书：Allen's Natural Language Understanding是一本很好的，但有点过时的书。 Foundations of Statistical Natural Language Processing是统计NLP的一个很好的介绍。 Speech and Language Processing有点严谨，可能更具权威性。 The Association for Computational Linguistics是计算语言学领域的领先科学界。

6
投票

除了基于字典的方法外，我还想到了另外两个方法：

该字段主要称为命名实体提取，通常被视为信息提取的子字段。 NLP不同领域的一个很好的起点通常是Oxford Handbook of Computational Linguistics的相应章节：

（来源：oup.com）

4
投票

尝试搜索“命名实体识别” - 这是NLP文献中用于此类事物的术语。

2
投票

这取决于你基于字典的意思。

例如，一种策略是采取不在字典中的东西，并尝试继续假设它们是专有名词。如果这导致了合理的解析，请考虑暂时验证的假设并继续进行，否则得出结论认为它们不是。

其他想法：

- MarkusQ

0
投票

一些工具包建议：1。Opennlp：你的任务有一个命名实体识别组件2. LingPipe：也是它的NER组件3.Stanford NLP包：学术用途的优秀包，可能不是商业友好的。 4. nltk：一个Python NLP包

0
投票

如果你有句子，如“谁是比尔门”，如果你应用词性标记器。它会给出答案

“谁/ WP是/ VBZ bill / NN gate / NNS？/。”

所以你得到这句话中的所有名词。现在，您可以使用某种算法轻松提取此名词。如果您使用自然语言处理，我建议使用python。它有NLTK（自然语言工具包），您可以使用它。

0
投票

如果您对自然语言处理的实现感兴趣并且python是您的编程语言，那么这可以是一个非常丰富的资源：http://www.youtube.com/watch?v=kKe4M4iSclc

0
投票

虽然这是针对孟加拉语的，但它可以绘制一个通用的程序来识别专有名词。所以我希望这对你有所帮助。请查看以下链接：http://www.mecs-press.org/ijmecs/ijmecs-v6-n8/v6n8-1.html