从新闻网站提取的文本数据应该存储在哪种数据类型中以进行 NLP?

问题描述 投票:0回答:1

我使用

beautifulsoup

提取了以下文本数据
for data in soup2.find_all(class_="td-post-content"):
         data.get_text()

我应该以哪种类型的数据类型存储上面提取的数据?

我将上面提取的数据存储到列表中,但无法执行文本分析 它不包含任何标题等..

python web-scraping beautifulsoup nlp
1个回答
0
投票

我已经有一段时间没有接触过Python或BeautifulSoup了,但最后我检查了一下使用pandas来分析汤数据是天作之合。如果您尝试以有意义的方式组织和筛选数据,我肯定会检查一下。

您的列表不包含任何标题的原因是您只选择文章内容,而不是标题。我不知道您正在抓取哪个网站,但是如果您使用开发人员工具检查文章的标题,它应该会告诉您您正在寻找的课程。它可能与您已经对

class="td-post-content"
进行的搜索类似,但可能更接近
class="td-post-title"
或类似的内容。

© www.soinside.com 2019 - 2024. All rights reserved.