当id包含使用Nokogiri的特殊字符时，如何抓取url /文本

Question

我正在尝试从https://webcat.schaeffler.com/web/schaeffler/pl/PKW/applicationSearch.xhtml抓取一些数据。

我开始构建应用程序的结构：

require 'nokogiri'
require 'open-uri'

class Scrape

  def first(strona)
      @page = Nokogiri::HTML(open(strona))
  end

  def marka(css)
      @page.css(css).text
  end

end

x = Scrape.new

x.first("https://webcat.schaeffler.com/web/schaeffler/pl/PKW/index.xhtml")
puts x.marka("a#searchByConstraints:form:j_idt491:0:j_idt493:0:j_idt495")

它应该放“ ABARTH”，但是id包括像":"这样的特殊字符，我唯一得到的是：

unexpected '0' after ':' (Nokogiri::CSS::SyntaxError)

我在“ Is there a way to escape non-alphanumeric characters in Nokogiri css?”上找到了解决方案，所以我将代码的最后一行更改为：

puts x.marka('*[id="searchByConstraints:form:j_idt491:0:j_idt493:0:j_idt495"]')

它返回一个空字符串，但我不知道为什么。

目标站点上的元素看起来像：

<a id="searchByConstraints:form:j_idt491:0:j_idt493:0:j_idt495" href="/web/schaeffler/pl/PKW/3854/applicationSearch.xhtml" title="ABARTH">ABARTH</a>

我做错了，或者在我的情况下不起作用。

Answer 1

这些ID是非标准CSS，因此您无法像普通标签一样搜索它们，就像<div id="this-is-normal">一样。相反，您需要匹配div ID中的模式。

我认为这是您所需要的：

@page.css('div[id^="searchByConstraints:form:j_idt491"]')

所以对您来说是：

x.marka('div[id^="searchByConstraints:form:j_idt491"]')

作为旁注，我建议您将班级命名为Scrapper或Scrape还有一种更好的做法是在类后命名实例变量，因此

scrapper = Scrapper.new
scrapper.marka('blah') # etc. maybe you mean marker?

Answer 2

我已经找到了解决方法。我使用的是XPATH，而不是CSS。

我更改此代码：

  def marka(css)
      @page.css(css).text
  end

puts x.marka("a#searchByConstraints:form:j_idt491:0:j_idt493:0:j_idt495")

为此：

def marka(css)
    @page.xpath(css).text
end

puts x.marka("//*[@id='searchByConstraints:form:j_idt491:0:j_idt493:0:j_idt495']")

当id包含使用Nokogiri的特殊字符时，如何抓取url /文本

问题描述投票：2回答：2

2个回答

最新问题

当id包含使用Nokogiri的特殊字符时，如何抓取url /文本

问题描述 投票：2回答：2

2个回答

最新问题

问题描述投票：2回答：2