刮板 - 如何保存和存储表情符号

问题描述 投票:0回答:2

我目前在python 3.x和ubuntu环境下使用来自https://scrapy.org/的Scraper,不知何故我想在论坛中获得用户评论,其中包含文本以及表情符号。

想知道我们如何将这些表情符号保存到一个数组中,以便我可以在cvs或json中看到这个?

谢谢

python web-scraping scrapy-spider scrape scraper
2个回答
0
投票

如果您至少可以提供页面的HTML,那将是一件好事。

如果表情符号和文本都包含在父元素中,那么让我们说div与注释类如下所示。

<div class="comment">
    <div class="description">This is a comment.</div>
    <span>:-)</span>
</div>

然后您可以使用以下XPath或CSS选择器。

response.css('.comment ::text').extract()

要么

response.xpath('.//div[@class="comment"]//text()').extract()

0
投票

可能是由HTML结构引起的。如果子元素中提供了表情符号,则可以在string()表达式中使用xpath函数。

response.xpath('string(.//xpath/to/comment)')
© www.soinside.com 2019 - 2024. All rights reserved.