通过python使用硒中的xpath获取innerHTML

问题描述 投票:0回答:1

尽管我检查了文档中的示例,并且在堆栈中遇到了一些问题,但我无法使代码正常工作,但我仍在尝试学习网络抓取。

我要抓取的网站上有工作清单,但结构上没有模式或固定类,几乎每个元素都有自己的ID和单独的类。当我使用检查器从锚标记中找到innerHTML的xPath时,它就是我得到的:

使用Firefox:

/html/body/div[1]/div/main/div[3]/div/div/section/ul/li[1]/article/header/div/div[1]/h2/a

使用勇敢的浏览器:

//*[@id="16542952"]/section/div/header/h2/a

相同的URL,相同的元素,结果中的第一个职位。

URL

我想循环浏览页面并从职位列表中的某些元素中获取文本,例如职位名称,描述等。>

我正在将Selenium与Python和Firefox / geckodriver结合使用

尽管我检查了文档中的示例,但在堆栈中有一些问题,我仍无法学习网络抓取,但是我无法使代码正常工作。我要抓取的网站上有工作清单,...

python selenium xpath css-selectors webdriverwait
1个回答
0
投票

要循环浏览页面并使用SeleniumPython


0
投票

例如,您有一个元素el来获取它的innerHTML你可以做

© www.soinside.com 2019 - 2024. All rights reserved.