此问题已经在这里有了答案:
我正在使用request.get从Google Ngrams检索数据。
我遇到一个问题,当我在网站上查询其中带有重音符的字符串(在这种情况下,我正在搜索"marcher d'un pas lourd"
)时,它将返回"marcher d' un pas lourd"
的信息。
您可以在返回的字符串中看到,撇号已被替换为四位数的撇号Unicode。
这弄乱了我的其余代码,因为我使用原始的字符串查询("marcher d'un pas lourd"
)从返回的数据中找到所需的数据。
是否有任何函数或程序将搜索和转换以其他普通字符组成的字符串的四位数Unicode?请注意,我不想删除这些特殊字符,而希望在我的代码中将它们恢复为正确的表示形式。
这些被称为HTML实体,可以使用以下方法对其进行转义:
>>> s="marcher d' un pas lourd"
>>> import html
>>> html.unescape(s)
"marcher d' un pas lourd"