html-parsing 相关问题

HTML解析是消耗HTML文档的序列化并产生可以以编程方式工作的表示的过程 - 例如,为了从中提取数据。 HTML规范定义了用于解析HTML的标准算法,该算法在所有主流浏览器中实现。

提取文本:在带有Beautiful Soup的元素之后

我想提取文本:在元素之后。 06:25 vP 我有 ...

回答 1 投票 2

Python'latin-1'编解码器无法编码字符 - 如何忽略字符?

这是我的代码的要点。它试图从旧网站获取一些文本。这不是我的,所以我无法改变消息来源。来自bs4 import BeautifulSoup导入请求response = requests.get(“...

回答 2 投票 1

如何从HTML中提取链接?

我正在尝试在SF编年史中获取此类别中每篇文章的链接,但我不确定我应该从哪里开始提取URL。到目前为止,这是我的进展:来自urllib.request ...

回答 2 投票 2

如何在beautifulsoup上的多个列表中采取特定元素?

我很难提取一些特定的标签(及其字符串内容)并将它们存储到变量中(因此我可以在以后将这些变量放入CSV文件中)。来自bs4从...导入BeautifulSoup ...

回答 1 投票 2

在JScript ES3中将HTML字符串解析为文档

由于JScript是“浏览器之外”,Javascript的Microsoft ES3变体,因此将HTML字符串解析为对象很难做到简单。如前所述,JScript不驻留在浏览器中,...

回答 1 投票 0

得到一个页面的标题

我使用以下$ urlContents = file_get_contents(“$ url”)获取页面标题;的preg_match(“/ (.*)/i", $urlContents, $matches); the problem i am having is ...

回答 3 投票 0

我怎样才能得到一篇文章:作者,上传和更新的日期?

这是我删除文章的功能,现在我正在努力研究如何抓取作者的姓名,上传日期以及更新日期。有什么办法可以......

回答 1 投票 0

从特定块中获取文本,不包括某些嵌套标记

我一直在尝试制作一个Python脚本,它实际上从特定的元素块中提取文本,但必须在嵌套的兄弟中排除一些文本。这是我试图抓取的HTML部分:...

回答 1 投票 0

我怎样才能只提取文章正文的某些部分?

在我的text_scraper(page_soup)中,我意识到最后我得到了与我的文章无关的无关信息。什么是摆脱无关紧要的一般方法......

回答 1 投票 0

用于onClick的Javascript 2函数

您好我是Javascript的新手,所以请耐心等待。我有一个javascript测验,它收集答案并在测验结束时显示一个分数。该分数是根据'onClick'事件计算得出的......

回答 3 投票 3

试图从网页中提取一些数据(抓取初学者)

我正在尝试使用Requests和Beautifulsoup从网页中提取一些数据。我首先获取带有请求的html代码,然后将其“放入”Beautifulsoup:来自bs4 import ...

回答 1 投票 1

使用BeautifulSoup选择多个元素并单独管理它们

我正在使用BeautifulSoup来解析一个诗歌网页。诗歌分为h3为诗歌标题,而诗歌则分别为诗歌的每一行。我可以获取这两个元素并将它们添加到列表中。但我想要 ...

回答 1 投票 0

美丽的汤正在返回'NoneType'对象,我该如何解决这个问题?

我试图从这个网站中删除数据统计信息,其中以下内容写成一行: 1

回答 1 投票 2

无法使用python解析网页

我正在尝试在网页下面解析以获得现在在交易所中一直处于高点或低点的股票名称。 https://www.bseindia.com/markets/equity/EQReports/HighLow.html?Flag=H#但是,当我......

回答 1 投票 0

使用beautifulSoup4解析html表时出现属性错误

我试图使用BeautifulSoup4从表中获得排名,国家名称,人口,密度和表面。当我使用table.find_all('tr')时,它返回以下错误:AttributeError:'...

回答 2 投票 1

如何根据某些分隔符解析html字符串?

#202020# 这是#user#202021输入的字符串# # 001 10#

回答 1 投票 0

Python网页抓取

我只是想通过使用python从HTML中提取数据。(我需要数据= 20%)对此的任何帮助都将非常感激。

回答 1 投票 0

Python:使用Beautifulsoup从html获取文本

我试图从这个链接链接示例中提取排名文本编号:kaggle用户排名no1。在图像中更清楚:我使用以下代码:def get_single_item_data(item_url):...

回答 4 投票 4

使用BeautifulSoup解析HTML时缺少特殊字符和标记

我正在尝试使用BeautifulSoup和Python解析HTML文档。但它停止解析特殊字符,如下所示:从bs4 import BeautifulSoup doc =''' ...

回答 1 投票 3

BeautifulSoup HTML获得src链接

我正在使用python 3.5.1和请求模块制作一个小型网络爬虫,它从特定网站下载所有漫画。我正在试验一个页面。我使用BeautifulSoup4解析页面...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.