将 nlp 应用于抓取的文本和流数据的 Python 应用程序

问题描述 投票:0回答:0

我正在尝试为我正在构建的应用程序选择合适的工具。 我想抓取多个平台并将抓取的数据保存在某个地方,然后我想清理并应用 nlp (nltk) 并对抓取的文本进行分析,然后将其实时流式传输到 ui。 我正在使用硒和漂亮的汤来抓取数据。我不知道什么是存储这些数据的最佳选择,什么是应用 nlp 和流处理和分析的最佳工具。存储所有这些的最佳数据库是什么?

我想过用spark来流数据,但是spark可以结合什么?我从哪里开始?

apache-spark nlp nltk spark-streaming data-analysis
© www.soinside.com 2019 - 2024. All rights reserved.