从给定的文本中识别出与领域相关的重要关键词。

问题描述 投票:0回答:1

我对NLP文本处理领域比较陌生。我想知道如何从一个给定的文本中识别出领域相关的重要关键字.例如,如果我必须建立一个Q&A聊天机器人,将被用于银行领域,Q将是这样的。What is the maturity date for TRADE:12345 ?

从Q中,我想提取关键字:maturity date & TRADE:12345.从提取的信息中,我将构建一个类似SQL的查询,搜索DB,检索SQL输出并向用户提供响应。

任何帮助将是感激的。

先谢谢你。

python nlp nltk chatbot text-processing
1个回答
0
投票

那么,这就是工作的意义所在。

通常大家都会从停止词列表开始。有几种,明智地选择。但更多的可能是你会实验和or使用一个基础列表,然后在这个列表中添加更多的单词。

根据列表的不同,它会取出

"什么,是,的,为,?"

由于这是一个很简单的例子,他们都会这样做。但你会注意到,正在做的事情与你想要的正好相反。你要求的是特定领域的词,但正在发生的是去除所有其他的杂物(到库)。

从这里开始,这将取决于你使用什么。NLTK或Spacy是常见的选择。无论你选择什么,都要对概念有一个真正的理解,否则它可能会咬你(就像数据科学中的几乎所有东西一样)。

期待开始用语言模式来思考,所以,在你的例子中。

TRADE: 12345的成熟日期是什么?

'What'是一个问句,'the'是一个定语,'for'开始一个介词短语。

可能还有其他线索,如':'或TRADE是大写的。但是,它可能不是。

这应该让你开始,但你可以看看其他一些StackExchange网站,以获得更深入的专业知识。

最后,你要把这样的问题分解成多个问题(假设你已经做了研究,并确定这个问题还没有被问到--重复)。所以,NLTK和NLP是体面的新事物,但SQL查询通常是谷歌搜索。

© www.soinside.com 2019 - 2024. All rights reserved.