data = re.sub('<[^>]*>', '', string=html).lower()
我想抓取随机页面。但是,由于不可能只刮取所需的内容,因此我提出了一个问题。刮擦后使用正则表达式删除html是否有效?
html2text库或pextract lib有效用于质疑