是否无需标记就无法清理Web爬网？用正则表达式是否可以使其干净？

Question

data = re.sub('<[^>]*>', '', string=html).lower()

我想抓取随机页面。但是，由于不可能只刮取所需的内容，因此我提出了一个问题。刮擦后使用正则表达式删除html是否有效？

Answer 1

0
投票

html2text库或pextract lib有效用于质疑