我目前正在从维基百科下载个别文章的 XML。为此,我使用具有以下调用格式的 wget
https://de.wiktionary.org/wiki/Special:Export/?title=Special:Export&pages=**<page>**&curonly=1&templates=1&action=submit
这也有效,但我有问题,例如西里尔字符。它们是为页面编码的(很多 %)。但这似乎不起作用。我总是只取回架构定义。如果我在浏览器中输入地址(见上文),它就会工作。 我已经尝试过 --remote-encoding=UTF-8 。它会影响窗户!
通过
为目标服务器设置编码是不够的 --remote-encoding=UTF8
指定。 对于输入,也必须这样做。
--local-encoding=UTF8
然后 wget 不会用 % 替换它。否则 wget 假定 ASCII 编码并使用 % 替换。