以HTML格式获取数据模式

问题描述 投票:0回答:1

我的目标是编写一些R代码行,这些代码允许我从中进行网页抓取

www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=home#results

得到:航空公司,出发和到达机场S,出发和到达时间,价格。

我决定使用Rcrawler包(here how it works)但是,由于没有HTML经验,我不知道如何设置ExtractXpathPat选项来获取数据。

    Rcrawler(Website = "https://www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=day-view#results", 
no_cores = 4, no_conn = 4, ExtractXpathPat = c("?????"))

我该怎么办?我怎样才能学会如何设置路径?谢谢!

html r path web-crawler
1个回答
1
投票

请注意,根据域的策略不允许通过网络提取信息来提取。但是要获取css代码或xpath,您可以在浏览器中使用“Selector Gadget”或inspect按钮。

要确保允许网页抓取,您必须访问域名的robots.txt。在你的情况下:http://www.skyscanner.com/robots.txt。您也可以使用robotstxt包。

© www.soinside.com 2019 - 2024. All rights reserved.