我正在访问某些网站,我需要提取一些数据。具体来说-从这一部分开始:
<input type="hidden" value="1" name="d520783895194bd08750e47c744d553d">
我需要提取“名称”部分。我听说了reular表达式不是最好的解决方案,所以我想问问什么是访问我需要的数据的最佳方法。
[用NekoHTML或TagSoup解析网站后(应该注意您的输入字段标签未关闭的事实),我建议使用xpath表达式:
//input[@type='hidden'][@value=1]/@name
在常规情况下,您将以GPath的形式应用它。
使用Html解析库,他们修复格式错误的Html,使导航文档以查找和更新元素变得容易。这是指向Java / Groovy实现列表的链接:
http://www.wavyx.net/2009/01/13/looking-for-a-java-html-parser-or-groovy/