Nokogiri，open-uri和Unicode字符

Question

我正在使用Nokogiri和open-uri来获取网页上标题标签的内容，但是在重音字符方面遇到了麻烦。处理这些的最佳方法是什么？这是我在做什么：

require 'open-uri'
require 'nokogiri'

doc = Nokogiri::HTML(open(link))
title = doc.at_css("title")

此时，标题看起来像这样：

Rag \ 303 \ 271

而不是：

Ragù

我如何让nokogiri返回正确的字符（例如，在这种情况下为ù？）>

以下是示例网址：

我正在使用Nokogiri和open-uri来获取网页上标题标签的内容，但是在重音字符方面遇到了麻烦。处理这些的最佳方法是什么？这是我在做什么：...

Answer 1

[当您说“看起来像这样”时，您是否正在查看此值IRB？它使用C样式转义表示字符的字节序列来转义非ASCII范围字符。

Answer 2

61
投票

摘要：

Answer 3

我遇到了同样的问题，Iconv方法行不通。 Nokogiri::HTML是Nokogiri::HTML.parse(thing, url, encoding, options)的别名。

Answer 4

6
投票

尝试像这样设置Nokogiri的编码选项：

Answer 5

您需要将要抓取的网站（此处为epicurious.com）的响应转换为utf-8编码。

Answer 6

仅添加交叉引用，此SO页面提供了一些相关信息：

Answer 7

0
投票

Tip：

Answer 8

0
投票

将Nokogiri :: HTML