我正在用Python编写一个程序,以扫描文章中感兴趣的主题。我想从许多文章中过滤掉与该主题相关的句子,然后创建摘要。
我一直在使用正则表达式,但是如果不使用关键字,通常会遗漏句子。更糟糕的是,我经常只会收到与关键字有关的问题,而忽略了最重要的答案。
例如,如果我对以下文章中的“特朗普”感兴趣:
“ ...您对特朗普的外交政策有何看法?我认为没有人能给出明确的答案,但我认为他很可能会采取一切措施来首先遏制公共卫生问题。.....“]]
通过正则表达式使用“特朗普”作为关键字,我只突出显示了问题,而不是接下来的句子中的答案。
我可以使用哪些技术来选择所有相关信息?对自然语言处理技术开放,理想情况下可以从开源软件包中获得,这可以帮助我做到这一点吗?
不需要成为完美的解决方案。谢谢!
我正在用Python编写一个程序,以扫描文章中感兴趣的主题。我想从许多文章中过滤掉与该主题相关的句子,然后创建摘要。我一直在使用...
我将从硒包或requests / urllib + beautifulsoup4开始。