我正在尝试抓取带有评论的网站,并且获得了所有网站块 我需要从废弃的网页中提取用户的评论,我该怎么做?
我有两个可能的指示如何做到这一点:
以某种方式检测哪个站点块包含评论并从这些块中提取内容,但有些站点具有非常奇怪的html语法,并且很难从标签中检测到 - 现在我正在尝试类似this答案中推荐的东西,但它工作得不够好。
网站上有一些文本块的文本分类,但我找不到任何模型/api来处理这个分类问题
我已经根据第二种方式编写了自我解决方案,它成为我的startapp的一部分