在python中获取URL的纯文本数据

Question

我想从给定的URL获取纯文本（例如，没有html标签和实体）。我应该使用什么库来尽快完成？

我试过（也许有比这更好或更好的东西）：

import re
import mechanize
br = mechanize.Browser()
br.open("myurl.com")
vh = br.viewing_html
//<bound method Browser.viewing_html of <mechanize._mechanize.Browser instance at 0x01E015A8>>

谢谢

Answer 1

您可以使用HTML2Text如果该网站不适合您，您可以去HTML2Text github Repo并获取它的Python

或者试试这个：

import urllib
from bs4 import*

html = urllib.urlopen('myurl.com').read()
soup = BeautifulSoup(html)
text = soup.get_text()
print text

我不知道它是否摆脱了所有的js和东西，但它摆脱了HTML

做一些谷歌搜索还有其他多个与此类似的问题

也许可以看看Read2Text

Answer 2

在Python 3中，您可以将HTML作为字节获取，然后转换为字符串表示形式：

from urllib import request

text = request.urlopen('myurl.com').read().decode('utf8')

在python中获取URL的纯文本数据

问题描述投票：1回答：2

2个回答

最新问题

在python中获取URL的纯文本数据

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2