在网页抓取时检测网页中的评论

问题描述 投票:0回答:1

我正在尝试抓取带有评论的网站,并且获得了所有网站块 我需要从废弃的网页中提取用户的评论,我该怎么做?

我有两个可能的指示如何做到这一点:

  1. 以某种方式检测哪个站点块包含评论并从这些块中提取内容,但有些站点具有非常奇怪的html语法,并且很难从标签中检测到 - 现在我正在尝试类似this答案中推荐的东西,但它工作得不够好。

  2. 网站上有一些文本块的文本分类,但我找不到任何模型/api来处理这个分类问题

python web-scraping text text-classification
1个回答
0
投票

我已经根据第二种方式编写了自我解决方案,它成为我的startapp的一部分

© www.soinside.com 2019 - 2024. All rights reserved.