html-parsing 相关问题

HTML解析是消耗HTML文档的序列化并产生可以以编程方式工作的表示的过程 - 例如,为了从中提取数据。 HTML规范定义了用于解析HTML的标准算法,该算法在所有主流浏览器中实现。

在Beautifoulsuop解析HTML.text python中添加空格。

我正在解析一些HTML数据,并试图解析文本,但当我没有得到想要的结果。我正在解析的HTML片段。例子1

回答 1 投票 0

HTML Specific <h1> Python中的文本

我只想得到页面的标题

回答 1 投票 0

解析我的html,提取 使用jSoup

这是我的html文件。 关键字 要素1 ...

回答 1 投票 0

[类似Python的jquery HTML解析?

是否有任何Python库可让我解析类似于jQuery的HTML文档?即,我希望能够使用CSS选择器语法从...

回答 4 投票 64

在Beautifulsoup中查找特定的HTML标签

我一直在努力寻找正确的汤。select_one或find_next组合来找到下面的zestimate标签。您能帮忙找到此汤代码吗?这是网址:https://www.zillow.com / ...

回答 2 投票 0

遍历URL的Dataframe列并解析出html标签

这不应该太难,尽管我不知道,我敢打赌我犯了一个愚蠢的错误。以下是适用于单个链接并返回zestimate的代码(req_headers变量...

回答 1 投票 0

在Python的HTML标记内查找特定文本

我已经尝试了100万种方法来解析热情,但尚未成功。这是带有zestimate信息的html标签:... ...>] >>

回答 1 投票 0

美丽的汤刮了多页,下一页缺少值

我正在使用Beautifulsoup在多页网站上抓取汽车名称和价格列表。在一页中,它包含40个数据,并且如果仅刮一页,该代码将正常工作。当涉及刮擦...

回答 1 投票 1

java.lang.NullPointerException:尝试在JSoup库上调用接口方法'int java.lang.Comparable.compareTo(java.lang.Object)'

我曾尝试在Jsoup github论坛上提问,但仍未得到任何答案。此崩溃仅发生在Firebase TestLab(API级别28、26)中的特定设备中。我很难测试bcz我所有的...

回答 1 投票 0

来自维基百科的解析器用户页面信息。如何删除多余的信息?

我正在尝试使用API 从Wikipedia中获取公共用户信息。 (使用脚本get_pages_revisions.py)。在获得修订后,我使用BeautifulSoup剥离了所有HTML标记。但是,我...

回答 1 投票 0

如何使用python将字典值插入html模板文件?

我有一个html模板文件,如下所示,我想用python脚本中的字典值替换标题和正文。

回答 1 投票 1


Speedo up upsoupsoup

我正在运行本课程网站的抓取工具,我想知道一旦将它放入beautifulsoup中,是否有更快的方法来抓取该页面。它花费的时间比我预期的要长。 ...

回答 2 投票 10

无法使用Beautifulsoup读取网页的所有html

我正在尝试使用Beautifulsoup从SEC提取10k表格。不幸的是,以下代码并未显示所有html。它是从html中间的某处开始打印的。 ...

回答 1 投票 0

解析类的特定部分

我想从html doc类进行解析,但前提是所包含的类中包含特定单词。因此,例如在 或 此...

回答 1 投票 0

我如何将具有相同值的键合并到单个对象中?

我使用Parsehub API以json格式抓取以下数据,当我想在某个国家/地区打印信息时,我只能获取第一组数据:'name','pop','area ','growth','...

回答 1 投票 0

在SAS中解析HTML数据

[嗨,我是R用户,这是我第一次尝试在SAS中解析HTML数据。我能够在文本文件中获取信息,然后使用以下几行读取文件,但无法解析数据:...

回答 1 投票 0

使用BeautifulSoup抓取网页

我正在尝试抓取此站点:https://www.senate.gov/general/contact_information/senators_cfm.cfm我的代码:来自bs4的导入请求import BeautifulSoup URL ='https://www.senate.gov/。 ..

回答 2 投票 1

是否无需标记就无法清理Web爬网?用正则表达式是否可以使其干净?

数据= re.sub('] *>','',string = html).lower()我想抓取随机页面。但是,由于不可能只刮取所需的内容,因此我提出了一个问题。是否可以删除...

回答 1 投票 0

解析HTML文件并存储标题 和子标题 ,文本包含在另一个文件目录(Python)中的文本下]] 所以我的HTML页面很长。我实际上将.docx文档转换为HTML,因为我希望所有标题都将其作为副标题存储在单独的文件中,因为以后我想复制相同的文件(但删除一些内容),所以我的想法是将一次解析HTML并一次存储所有标题和子标题,并且根据需要,我将仅获取需要的内容。 有人可以指导我使用哪个库,或者有我可能不知道的更简单,更智能的方法吗?请指导我。 非常感谢。 一个例子可以看作是: `1 INTRODUCTION 1.1 Purpose Some text for purposes 1.2 Terminology Some text for Terminology 2 TESTING 2.1 Dependencies Some text some text some text 2.2 Testing Components Some text some text some text 2.3 Test Architecture Some text some text some text 并且我希望它们像存储在这些文件夹中的所有文本一样,保存在不同的文件夹中。仅按字面意思进行复制和粘贴,但保留正确的文件夹和所有HTML内容。 `/home/user/Projects/HTML_Parser ├── main.py/ │ ├── __init__.py │ ├── db.py │ ├── schema.sql │ ├── auth.py │ ├── blog.py │ ├── templates/ │ └── static/ │ └── style.css ├── 1.INTRODUCTION/ │ ├── 1.1Purpose │ └── 1.2Terminology └── 2.TESTING │ ├── 2.1Dependencies │ └── 2.2TestingComponents └── 2.3TestArchitecture ` 所以我的HTML页面很长。实际上,我将.docx文档转换为HTML,因为我希望所有标题都将其存储在单个文件中,因为以后我希望...

所以我的HTML页面很长。实际上,我将.docx文档转换为HTML,因为我希望所有标题都将其存储在单个文件中,因为以后我希望...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.