如何使用仅XPath的正则表达式模式刮取无ID网站元素

Question

在XPath搜索中有几个与正则表达式的使用相关的类似问题 - 但是，有些问题对我来说并不是非常illuminating，而有些问题则是failed。因此，对于可能会遇到相同问题的未来用户，我发布了以下问题：

在Python / Selenium中使用一个调用，我希望能够一次刮掉下面的所有元素（为了便于阅读而无需代码格式化）：

/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[**1**]/div/div[2]/div[1]
/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[**2**]/div/div[2]/div[1]
/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[**3**]/div/div[2]/div[1]
/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[**4**]/div/div[2]/div[1]
/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[**5**]/div/div[2]/div[1]
/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[**6**]/div/div[2]/div[1]

请注意，匹配元素的数量在目标网站之间是可变的（可以超过6个，但至少有一个），并且关联的元素没有分配特定的ID（根据我的理解排除了StackOverflow上其他地方解释的许多solutions））。

我正在寻找的是：

website = driver.get(URL)
html = WebDriverWait(driver, 1).until(EC.presence_of_element_located((By.XPATH, "/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[[0-9]{1}]/div/div[2]/div[1]", regex = True)))

什么不起作用是：

website = driver.get(URL)
html = WebDriverWait(driver, 1).until(EC.presence_of_element_located((By.XPATH, "/html/body/div[6]/div/div[1]/div/div[3]/div[2]/div[2]/div[matchers['[0-9]{1}']]/div/div[2]/div[1]")))
TimeoutException: Message: 
Screenshot: available via screen

如何在没有ID的情况下抓取所有网站元素，其XPath与Python + Selenium中的正则表达式模式匹配？

Answer 1

你不想要一个正则表达式，你想要谓词[position()<=6]。

如何使用仅XPath的正则表达式模式刮取无ID网站元素

问题描述投票：0回答：1

1个回答

最新问题

如何使用仅XPath的正则表达式模式刮取无ID网站元素

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1