哪种数据类型应存储从新闻网站提取的用于 nlp 的文本数据

问题描述 投票:0回答:1

我使用 beautifulsoup 提取了以下文本数据 对于 soup2.find_all(class_="td-post-content") 中的数据: data.get_text() 我应该将提取的数据存储在哪种类型的数据类型中

我将上面提取的数据存储到列表中,但无法执行文本分析 它不包含任何标题等..

web-scraping
1个回答
0
投票

我已经有一段时间没有接触过Python或BeautifulSoup了,但最后我检查了一下使用pandas来分析汤数据是天作之合。如果您尝试以有意义的方式组织和筛选数据,我肯定会检查一下。

您的列表不包含任何标题的原因是您只选择文章内容,而不是标题。我不知道您正在抓取哪个网站,但是如果您使用开发人员工具检查文章的标题,它应该会告诉您您正在寻找的课程。它可能与您已经对

class="td-post-content"
进行的搜索类似,但可能更接近
class="td-post-title"
或类似的内容。

© www.soinside.com 2019 - 2024. All rights reserved.