从简单的html提取文本和（hlStart和hlEnd）标签

Question 1

from bs4 import BeautifulSoup

txt = '''<p><hlstart ana="#ann224094"></hlstart>Przed<hlend ana="#ann224094"></hlend> <hlstart ana="#ann224160"></hlstart>nami <hlend ana="#ann224160"></hlend>jeszcze trzy <hlstart ana="#ann224159"></hlstart>dni,<hlend ana="#ann224159"></hlend></p>'''

soup = BeautifulSoup(txt, 'html.parser')

out = []
for t in soup.find_all(text=True):
    if t.strip() == '':
        continue

    prev = t.find_previous_sibling()
    if prev.name == 'hlstart':
        out.append( (t, prev['ana']) )
    else:
        out.append( (t, 'noana') )

# print it to screen:
from pprint import pprint
pprint(out)

Answer

from bs4 import BeautifulSoup

txt = '''<p><hlstart ana="#ann224094"></hlstart>Przed<hlend ana="#ann224094"></hlend> <hlstart ana="#ann224160"></hlstart>nami <hlend ana="#ann224160"></hlend>jeszcze trzy <hlstart ana="#ann224159"></hlstart>dni,<hlend ana="#ann224159"></hlend></p>'''

soup = BeautifulSoup(txt, 'html.parser')

out = []
for t in soup.find_all(text=True):
    if t.strip() == '':
        continue

    prev = t.find_previous_sibling()
    if prev.name == 'hlstart':
        out.append( (t, prev['ana']) )
    else:
        out.append( (t, 'noana') )

# print it to screen:
from pprint import pprint
pprint(out)

Question 2

另一种方法，使用lxml：

Answer

另一种方法，使用lxml：

    ana = """your html above"""
    import lxml.html as lh

    doc = lh.fromstring(ana)
    targets = doc.xpath('//hlstart[@ana]')
    nont = doc.xpath('//*[name() != "hlstart"]')

    for target in targets:
        if target.tail is not None:
            print(target.attrib['ana'],target.tail.strip())

    for n in nont:
        if n.tail is not None and len(n.tail.strip())>0:
           print('noanna ',n.tail.strip())

Question 3

另一种方法，使用SimplifiedDoc：）

Answer

另一种方法，使用SimplifiedDoc：）

from simplified_scrapy import SimplifiedDoc,utils
html = '''
<p>
<hlstart ana="#ann224094"></hlstart>Przed<hlend ana="#ann224094"></hlend> 
<hlstart ana="#ann224160"></hlstart>nami <hlend ana="#ann224160"></hlend>
jeszcze trzy 
<hlstart ana="#ann224159"></hlstart>dni,<hlend ana="#ann224159"></hlend></p>'''

doc = SimplifiedDoc(html)
for h in doc.p.hlstarts:
    text = h.nextText()
    if text: print(h.ana,text)
for h in doc.p.hlends:
    text = h.nextText()
    if text: print('noana',text)

从简单的html提取文本和（hlStart和hlEnd）标签

问题描述投票：0回答：3

3个回答

最新问题

从简单的html提取文本和（hlStart和hlEnd）标签

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3