我正在尝试使用
R
和 rvest
抓取网站,但我得到的 HTML 与浏览器中网页的 HTML 结构不匹配。相反,我收到一个显示“您的浏览器未启用 JavaScript”的 div。
我的目标是获得一个登录页面,这样我就可以输入一些登录信息。
这是给我描述输出的代码:
url <- "https://va.dimensions.ai/auth/base/login?redirect=%2Fdiscover"
login <- rvest::read_html(url)
login %>% rvest::html_elements("body div div h1")
#> {xml_nodeset (2)}
#> [1] <h1>JavaScript is not enabled in your browser.</h1>
#> [2] <h1>JavaScript is not enabled in your browser.</h1>
如果网站加载正确,表单将在这个 div 中:
url <- "https://va.dimensions.ai/auth/base/login?redirect=%2Fdiscover"
login <- rvest::read_html(url)
form <- login %>% rvest::html_elements("body div")
form[6]
#> {xml_nodeset (1)}
#> [1] <div data-js="login-form">\n \n </div>
如果相关,我正在使用
rvest_1.0.3
这是我的系统信息:
R.version
#> _
#> platform x86_64-w64-mingw32
#> arch x86_64
#> os mingw32
#> crt ucrt
#> system x86_64, mingw32
#> status
#> major 4
#> minor 2.2
#> year 2022
#> month 10
#> day 31
#> svn rev 83211
#> language R
#> version.string R version 4.2.2 (2022-10-31 ucrt)
#> nickname Innocent and Trusting