在使用硒和beautifulsoup进行网络抓取时，通过id，class，xpath，css选择器查找元素不会返回任何内容]

Question

我是网络爬虫的新手，并使用beautifulsoup和硒。我正在尝试从以下网页抓取数据：

https://epl.bibliocommons.com/item/show/2300646980

我正在尝试抓取以下部分：“包含该标题的工作人员列表”。特别是，我想获取<li>标签的数量，因为我只需要该人员列表上的项目/链接的数量。

我已经尝试通过“检查”页面提供的HTML代码进行以下操作。以下是我尝试从中抓取的HTML代码块：

<div class="ugc_bandage"> <div class="lists_heading clearfix"> <h3 data-test-id="ugc-lists-heading"> Listed </h3> <div class="ugc_add_link"> <div class="dropdown saveToButton clearfix" id="save_to_2300646980_id_7a3ateh0panp1uv0he1v7aqmj9" data-test-id="add-to-list-dropdown-container"> <a href="#" aria-expanded="false" aria-haspopup="true" class=" dropdown-toggle dropdown-toggle hide_trigger_icon" data-test-id="add-to-list-save-button" data-toggle="dropdown" id="save_button_2300646980_id_7a3ateh0panp1uv0he1v7aqmj9" rel="nofollow"> <i aria-hidden="true" class=" icon-plus"></i> <span aria-hidden="true">Add</span><span class="sr-only" data-js="sr-only-dropdown-toggle" data-text-collapsed="Add, collapsed" data-text-expanded="Add, expanded">Add, collapsed</span><span aria-hidden="true" class="icon-arrow"></span></a> <ul class="dropdown-menu"> <li> <a href="/user_lists/new?bib=2300646980&origin=https%3A%2F%2Fepl.bibliocommons.com%2Fitem%2Fload_ugc_content%2F2300646980" class="newList">Create a New List</a> </li> <li> <a href="/lists/add_bib/mine?bib=2300646980_fangirl" data-js="cp-overlay" id="more_lists_id_7a3ateh0panp1uv0he1v7aqmj9">Existing Lists »</a> </li> </ul> </div> </div> </div> <h4 data-test-id="staff-lists-that-include-this-title">Staff Lists that include this Title</h4> <div data-analytics="{ "SubFeature": "Lists that include this title" }" class="expand clearfix" id="all_lists_expand" testid="text_listsincluding"> <ul class="further_list"> <li> [LIST ENTRIES START HERE, BUT THERE'S SO MANY, IT WOULD MAKE THIS POST TO LONG.] </li>

我已经使用xpath抓取了以上代码，这些代码是通过检查人员列表部分（id="all_lists_expand"）复制的：

    element = driver.find_elements_by_xpath('//*[@id="rightBar"]/div[3]/div')

我尝试通过使用类名称进行抓取来抓取该部分：

    element = driver.find_element_by_class_name('expand clearfix')

我也尝试使用CSS选择器进行抓取：

    element = driver.find_element_by_css_selector('#all_lists_expand')

我还完成了上面代码的其他变体，查找元素的父类，xpath等的类。

以上所有尝试均返回NONE。我不确定自己做错了什么，应该触发事件还是使用硒触发某事？我什至没有点击列表中列出的任何链接，甚至没有保留链接列表，我只需要计算开始时有多少个链接即可。

我是网络爬虫的新手，并使用beautifulsoup和硒。我正在尝试从以下网页中抓取数据：https://epl.bibliocommons.com/item/show/2300646980我正在尝试抓取...

Answer 1

[我已抓取您的页面并编写了一个XPath，它将在'包含此标题的工作人员列表下找到所有li元素。

在使用硒和beautifulsoup进行网络抓取时，通过id，class，xpath，css选择器查找元素不会返回任何内容]

问题描述投票：0回答：1

1个回答

最新问题

在使用硒和beautifulsoup进行网络抓取时，通过id，class，xpath，css选择器查 找元素不会返回任何内容]

问题描述 投票：0回答：1

1个回答

最新问题

在使用硒和beautifulsoup进行网络抓取时，通过id，class，xpath，css选择器查找元素不会返回任何内容]

问题描述投票：0回答：1