使用python提取html文件中的特定部分

问题描述 投票:0回答:2

如何提取HTML文件示例https://patents.google.com/patent/EP1208209A1/en?oq=medicinal+chemistry的特定部分

到目前为止,我使用beautifulsoup来获取没有所有标签的html文本版本。但是我想让我的代码只说上述文件的声明部分。

python html parsing beautifulsoup extraction
2个回答
0
投票

据我所知,有两个div,其类为“ flex flex-width style-scope patent-result”。

soup = BeautifulSoup(sdata)
mydivs = soup.findAll("div", {"class": "flex flex-width style-scope patent-result"})
div_with_claims = mydivs [1]

0
投票
filename= 'C:/Users/xyz/.ipynb_checkpoints/EP1208209A1.html'
html_file =open(filename, 'r', encoding='utf-8')
source_code = html_file.read() 
#print(source_code)
soup = BeautifulSoup(source_code)
print(soup.get_text())
#mydivs = soup.findAll("div", {"class": "flex flex-width style-scope patent-result"})
#div_with_claims = mydivs [1]
#print(div_with_claims)
© www.soinside.com 2019 - 2024. All rights reserved.