通过python使用硒中的xpath获取innerHTML

Question

尽管我检查了文档中的示例，并且在堆栈中遇到了一些问题，但我无法使代码正常工作，但我仍在尝试学习网络抓取。

我要抓取的网站上有工作清单，但结构上没有模式或固定类，几乎每个元素都有自己的ID和单独的类。当我使用检查器从锚标记中找到innerHTML的xPath时，它就是我得到的：

使用Firefox：

/html/body/div[1]/div/main/div[3]/div/div/section/ul/li[1]/article/header/div/div[1]/h2/a

使用勇敢的浏览器：

//*[@id="16542952"]/section/div/header/h2/a

相同的URL，相同的元素，结果中的第一个职位。

我想循环浏览页面并从职位列表中的某些元素中获取文本，例如职位名称，描述等。>

我正在将Selenium与Python和Firefox / geckodriver结合使用

尽管我检查了文档中的示例，但在堆栈中有一些问题，我仍无法学习网络抓取，但是我无法使代码正常工作。我要抓取的网站上有工作清单，...

Answer 1

0
投票

要循环浏览页面并使用Selenium和Python

Answer 2

例如，您有一个元素el来获取它的innerHTML你可以做