HTML数据提取

Question

我正在访问某些网站，我需要提取一些数据。具体来说-从这一部分开始：

<input type="hidden" value="1" name="d520783895194bd08750e47c744d553d">

我需要提取“名称”部分。我听说了reular表达式不是最好的解决方案，所以我想问问什么是访问我需要的数据的最佳方法。

Answer 1

[用NekoHTML或TagSoup解析网站后（应该注意您的输入字段标签未关闭的事实），我建议使用xpath表达式：

//input[@type='hidden'][@value=1]/@name

在常规情况下，您将以GPath的形式应用它。

Answer 2

使用Html解析库，他们修复格式错误的Html，使导航文档以查找和更新元素变得容易。这是指向Java / Groovy实现列表的链接：

看起来像NekoHTML和TagSoup很流行，但是我没有用过Groovy或它。但是我用过其他语言的HTML解析器。