如何删除与同一 HTML 的文本内容段相对应的 HTML 块(以及标签)?

问题描述 投票:0回答:0

我使用 lxml

text_content
从 HTML 页面中提取了 text_content,并且我在其中找到了一些符合特定条件的文本,我需要从 HTML 中删除那些匹配的字符串。我必须将它连同其中的标签一起从 HTML 中删除。

一个简单的说明性例子来获得一个想法。

HTML = "<div>Spam<span>Ham<br>Jam</span><strong>HillDog</strong></div>"
TEXT_TO_REMOVE = "mHamJamHill"
REMOVED_HTML = "<div>Spa<strong>Dog</strong></div>"

另请注意,HTML 可能包含空格和其他需要处理的特殊字符

我提出的想法涉及跟踪 HTML 文档字符串中的索引并将其映射到提取的文本内容。但在这种方法中,我必须处理 text_content 解析器处理的所有情况,这是一项艰巨的任务。有没有其他更简单的方法?我错过了什么吗?有图书馆可以帮助我吗?

python html token lxml
© www.soinside.com 2019 - 2024. All rights reserved.