从新闻网站提取的文本数据应该存储在哪种数据类型中以进行 NLP？

Question

我使用

beautifulsoup

提取了以下文本数据

for data in soup2.find_all(class_="td-post-content"):
         data.get_text()

我应该以哪种类型的数据类型存储上面提取的数据？

我将上面提取的数据存储到列表中，但无法执行文本分析它不包含任何标题等..

Answer 1

我已经有一段时间没有接触过Python或BeautifulSoup了，但最后我检查了一下使用pandas来分析汤数据是天作之合。如果您尝试以有意义的方式组织和筛选数据，我肯定会检查一下。

您的列表不包含任何标题的原因是您只选择文章内容，而不是标题。我不知道您正在抓取哪个网站，但是如果您使用开发人员工具检查文章的标题，它应该会告诉您您正在寻找的课程。它可能与您已经对

class="td-post-content"

进行的搜索类似，但可能更接近

class="td-post-title"

或类似的内容。