python lxml在某些情况下无法解析日文[重复]

问题描述 投票:1回答:1

我正在使用lxml 4.5.0从网站抓取数据。

在以下示例中效果很好

chrome_ua = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 " \
            "(KHTML, like Gecko) Chrome/77.0.3864.0 Safari/537.36"

with requests.Session() as s:
    s.headers.update({'User-Agent': chrome_ua})
    resp = s.get('https://www.yahoo.co.jp')
    parser = etree.HTMLParser()
    tree = etree.parse(StringIO(resp.text), parser)
    result = tree.xpath('//*[@id="tabTopics1"]/a')[0]

result.text

[result.text给我正确的文本'ニュース'

但是当我尝试另一面时,它无法正确地折服日本人。

chrome_ua = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 " \
            "(KHTML, like Gecko) Chrome/77.0.3864.0 Safari/537.36"

with requests.Session() as s:
    s.headers.update({'User-Agent': chrome_ua})
    resp = s.get('https://travel.rakuten.co.jp/')
    parser = etree.HTMLParser()
    tree = etree.parse(StringIO(resp.text), parser)
    result = tree.xpath('//*[@id="rt-nav-box"]/li[1]/a')[0]

result.text

result.text给我'å\x9b½å\x86\x85æ\x97\x85è¡\x8c',应该是'国内旅行'

我尝试使用parser = etree.HTMLParser(encoding='utf-8'),但仍然无法正常工作。

在这种情况下,如何使lxml正确解析日语?

python python-requests lxml
1个回答
1
投票

使用中

print(resp.encoding)

您可以看到它使用ISO-8859-1resp.content转换为resp.text

但是您可以直接获得resp.content并使用不同的编码对其进行解码

StringIO( resp.content.decode('utf-8') )

使用模块chardet,您可以尝试检测应该使用哪种编码

print( chardet.detect(resp.content) )

结果

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

import requests
from lxml import etree
from io import StringIO
import chardet

chrome_ua = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 " \
            "(KHTML, like Gecko) Chrome/77.0.3864.0 Safari/537.36"

with requests.Session() as s:
    s.headers.update({'User-Agent': chrome_ua})
    resp = s.get('https://travel.rakuten.co.jp/')

    print(resp.encoding)
    print( chardet.detect(resp.content) )
    detected_encoding = chardet.detect(resp.content)['encoding']

    parser = etree.HTMLParser()
    #tree = etree.parse(StringIO(resp.content.decode('utf-8')), parser)
    tree = etree.parse(StringIO(resp.content.decode(detected_encoding)), parser)
    result = tree.xpath('//*[@id="rt-nav-box"]/li[1]/a')[0]

result.text

编辑:如在答案中找到的@ usr2564301

python requests.get() returns improperly decoded text instead of UTF-8?

可以用]解决>

 resp.encoding = resp.apparent_encoding 

使用chardet识别编码。

© www.soinside.com 2019 - 2024. All rights reserved.