我正在寻找一个程序,可以在给定网站的 URL 时从网站上获取文本。我希望能够获取
标签之间的所有文本。我在网上查看的所有地方似乎都使这个问题变得过于复杂,并且涉及一些我不太熟悉的 C 编码。总结一下我希望代码是什么样的(最好的情况)。如果问题中有任何我可以澄清或不清楚的地方,请在评论中告诉我
import WebReader as WR
StringOfWebText = WR.getParagrahText("WebsiteURL")
您可能想研究类似 BeautifulSoup 与 requests 的组合。然后,您可以使用如下简单的解决方案从页面中提取文本:
import requests
from bs4 import BeautifulSoup
r = requests.get("https://google.com")
soup = BeautifulSoup(r.text, "html.parser")
print(soup.text)
如果您需要处理这些问题,BS4 中还内置了标签搜索和其他有用的功能。