以HTML格式获取数据模式

Question

我的目标是编写一些R代码行，这些代码允许我从中进行网页抓取

www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=home#results

得到：航空公司，出发和到达机场S，出发和到达时间，价格。

我决定使用Rcrawler包（here how it works）但是，由于没有HTML经验，我不知道如何设置ExtractXpathPat选项来获取数据。

    Rcrawler(Website = "https://www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=day-view#results", 
no_cores = 4, no_conn = 4, ExtractXpathPat = c("?????"))

我该怎么办？我怎样才能学会如何设置路径？谢谢！

Answer 1

请注意，根据域的策略不允许通过网络提取信息来提取。但是要获取css代码或xpath，您可以在浏览器中使用“Selector Gadget”或inspect按钮。

要确保允许网页抓取，您必须访问域名的robots.txt。在你的情况下：http://www.skyscanner.com/robots.txt。您也可以使用robotstxt包。

以HTML格式获取数据模式

问题描述投票：0回答：1

1个回答

最新问题

以HTML格式获取数据模式

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1