上周我开始在ruby中编写脚本。我需要从网上搜集一些数据,所以建议我使用mechanize然后使用nokogiri。
Mechanize documentation says Mechanize使用nokogiri来解析html。这对你意味着什么?您可以将机械化页面视为nokogiri对象。使用Mechanize导航到需要刮擦的页面后,使用nokogiri方法刮取它。
我知道我可以使用.xpath .at_xpath,因为它是one answer to my question的一部分,但我不知道这些方法的确切语法,差异等我试图搜索nokogiri web。
我被告知in this answer我经常使用text()表达式。使用Nokogiri不需要这样做。您可以检索节点,然后在节点上调用text方法。它便宜得多。我试图搜索nokogiri web但没有找到任何东西。
在那里有人可以帮助我如何阅读nokogiri文档?
假设我想知道如何使用text方法而不是text()。
在阅读Nokogiri文档时,我不确定问题是什么。在Google上快速搜索“nokogiri”将首次发布“nokogiri.org”。那是文档页面。
在Ruby中,如果你没有传递参数,.text()
和.text
是一样的。 .text()
是.inner_text()
的别名,它将“获取所有包含的Node对象的内部文本”。 Searching nokogiri.org for "text"将帮助您入门。
我认为作者的意思之一是网站上的文档不是标准格式/显示,而是使用rdoc和各种方法显示信息的其他网站。例如。很难读懂。
回答,或尝试 - 我有幸在github周围搜索使用nokogiri的项目,并通过阅读来源从那里去。