尽管我检查了文档中的示例,并且在堆栈中遇到了一些问题,但我无法使代码正常工作,但我仍在尝试学习网络抓取。
我要抓取的网站上有工作清单,但结构上没有模式或固定类,几乎每个元素都有自己的ID和单独的类。当我使用检查器从锚标记中找到innerHTML的xPath时,它就是我得到的:
使用Firefox:
/html/body/div[1]/div/main/div[3]/div/div/section/ul/li[1]/article/header/div/div[1]/h2/a
使用勇敢的浏览器:
//*[@id="16542952"]/section/div/header/h2/a
相同的URL,相同的元素,结果中的第一个职位。
我想循环浏览页面并从职位列表中的某些元素中获取文本,例如职位名称,描述等。>
我正在将Selenium与Python和Firefox / geckodriver结合使用
尽管我检查了文档中的示例,但在堆栈中有一些问题,我仍无法学习网络抓取,但是我无法使代码正常工作。我要抓取的网站上有工作清单,...