BeautifulSoup标签

Question

我在证书的格式打印想[H3标签 - 然后在桌子底下下它，它再等文件[H3] - 那么表。但随着BS4我能够在一个单独的格式，而不是发现这些文本值在一起。我是个新手，当涉及到BS4。该网页链接 - https://www.zaubacorp.com/documents/KAKDA/U01122MP1985PTC002857此外，我的代码，以找到他们分别是

import requests
import urllib.request
from bs4 import BeautifulSoup

def make_soup(url):
    thepage = urllib.request.urlopen(url)
    soupdata = BeautifulSoup(thepage,"html.parser")
    return soupdata

soup=make_soup
("https://www.zaubacorp.com/documents/KAKDA/U01122MP1985PTC002857)
soup.prettify()
divs =soup.findAll("td", {"class" :"tab-tc-2"})
divs
soup.findAll("td")
soup.findAll('h3',{'class':'pull-left'})
date = [i.get_text() for i in soup.findAll('td',{"class" :"tab-tc-1"})]
date
header = [i.get_text() for i in soup.findAll('h3',{'class':'pull-left'})]
header
soup.findAll('h3',{'class':'pull-left'})
import pandas as pd
data=pd.DataFrame({"Date":date,"Certificates":Certi})
data
data

Answer 1

将大熊猫read_html吗？

import pandas as pd

tables = pd.read_html('https://www.zaubacorp.com/documents/KAKDA/U01122MP1985PTC002857')
for table in tables:
    print(table)

随着头：

import pandas as pd
import requests
from bs4 import BeautifulSoup as bs

url = 'https://www.zaubacorp.com/documents/KAKDA/U01122MP1985PTC002857'
res = requests.get(url)
soup = bs(res.content,'lxml')
headers = [header.text for header in soup.select('h3.pull-left')]
tables = pd.read_html(url)
items = zip(headers,tables)
for header, table in items:
    print(header)
    print(table)

BeautifulSoup标签

问题描述投票：-1回答：1

1个回答

最新问题

BeautifulSoup标签

问题描述 投票：-1回答：1

1个回答

最新问题

问题描述投票：-1回答：1