是否无需标记就无法清理Web爬网?用正则表达式是否可以使其干净?

问题描述 投票:0回答:1
data = re.sub('<[^>]*>', '', string=html).lower()

我想抓取随机页面。但是,由于不可能只刮取所需的内容,因此我提出了一个问题。刮擦后使用正则表达式删除html是否有效?

python python-3.x html-parsing
1个回答
0
投票

html2text库或pextract lib有效用于质疑

© www.soinside.com 2019 - 2024. All rights reserved.