上周,我开始用Ruby编写脚本。我需要从网上抓取一些数据,所以被告知要使用Mechanize,然后再使用Nokogiri。
机械化documentation说:
Mechanize使用nokogiri解析html。这对您意味着什么?您可以将机械化页面视为nokogiri对象。使用Mechanize导航到需要抓取的页面后,然后使用nokogiri方法进行抓取。
[我知道我可以使用xpath
或at_xpath
,因为它是“ How do I parse an HTML table with Nokogiri?”的一部分,但我不知道这些方法的确切语法,区别等。
在“ how to use nokogiri methods .xpath & .at_xpath”中有人告诉我
我经常使用text()表达式。使用Nokogiri不需要此操作。您可以检索该节点,然后在该节点上调用text方法。它便宜得多。
我试图搜索Nokogiri的文档,但未找到任何内容。
有没有人可以帮助我阅读Nokogiri的文档?
我想知道如何使用text
方法而不是text()
。
我不太确定在阅读Nokogiri文档时出了什么问题。在Google上快速搜索“ nokogiri”会返回“ nokogiri.org”。那是文档页面。
在Ruby中,如果不传递参数,则text()
与text
相同。 text()
是inner_text()
的别名,它将>
获取所有包含的Node对象的内部文本
我认为作者的意思之一是,该站点上的文档与其他使用rdoc和各种方法显示信息的站点一样,不是标准格式/显示格式