使用Python代码IEEEXplore网站提取DOI

问题描述 投票:0回答:1

无法从网页中提取现场数据,它不是一个常见的网络问题报废。它使用JavaScript相关的为好。我使用python-请求尝试为好,但未能解决问题。

我试图从网页中提取DOI。 DOI是躺在在JavaScript中。我能够阅读的页面和代码工作达{打印(汤)}。当我试图提取DOI值(在给定的代码,该示例网页DOI是如下:“DOI”:“10.1109 / LAWP.2014.2364296”)我想打印“10.1109 / LAWP.2014.2364296”,这是从网页中提取。

import urllib
from bs4 import BeautifulSoup
web_page = 'https://ieeexplore.ieee.org/document/6933872'
page = urllib.request.urlopen(web_page)
soup = BeautifulSoup(page, 'html.parser')        
print(soup)
soup.body.findAll(text='doi')

当使用网页“https://ieeexplore.ieee.org/document/6933872”输出为10.1109 / LAWP.2014.2364296。我怎么能?

python extraction ieee doi
1个回答
1
投票

刚刚跳过JavaScript的网页抓取问题的可能解决方案是使用IEEE API(https://developer.ieee.org/)。虽然他们确实需要注册和批准获得API密钥,一旦你拥有了它,它会更容易在一堆IEEE的文章编号,以发送和找回自己的DOI和其他元数据结构化的方式。

© www.soinside.com 2019 - 2024. All rights reserved.