如何抓取里面有<!-- -->的节点文本?

问题描述 投票:0回答:1

我正在编写一个网络爬虫,用于从招聘网站上抓取信息。我完成了我的第一个爬虫,但还有一些问题需要解决。

对于某些公司的头衔,我得到了这个

ПАО\xa0
结果。此文本为西里尔文,但我请求并以
UTF-8
编码保存。这种情况下节点的属性和内容检查显示了以下文本内容:

ПАО
<!---->
'company's name'

这个

<!---->
阻止了刮刀正常工作,我还没有解决这个问题。您在抓取过程中遇到过这种情况吗?您能提出正确的处理方法吗?

我用

scrapy
来处理它。

web-scraping scrapy
1个回答
0
投票

您可以使用 选择器。

XPath
知道
comment()
节点。

© www.soinside.com 2019 - 2024. All rights reserved.