HTML数据提取

问题描述 投票:3回答:2

我正在访问某些网站,我需要提取一些数据。具体来说-从这一部分开始:

<input type="hidden" value="1" name="d520783895194bd08750e47c744d553d">

我需要提取“名称”部分。我听说了reular表达式不是最好的解决方案,所以我想问问什么是访问我需要的数据的最佳方法。

html regex groovy extraction
2个回答
2
投票

[用NekoHTML或TagSoup解析网站后(应该注意您的输入字段标签未关闭的事实),我建议使用xpath表达式:

//input[@type='hidden'][@value=1]/@name

在常规情况下,您将以GPath的形式应用它。


2
投票

使用Html解析库,他们修复格式错误的Html,使导航文档以查找和更新元素变得容易。这是指向Java / Groovy实现列表的链接:

http://www.wavyx.net/2009/01/13/looking-for-a-java-html-parser-or-groovy/

看起来像NekoHTMLTagSoup很流行,但是我没有用过Groovy或它。但是我用过其他语言的HTML解析器。

© www.soinside.com 2019 - 2024. All rights reserved.