使用 wget 以 xml 格式从维基百科下载一篇标题为 unicode 的文章

问题描述 投票:0回答:1

我目前正在从维基百科下载个别文章的 XML。为此,我使用具有以下调用格式的 wget

https://de.wiktionary.org/wiki/Special:Export/?title=Special:Export&pages=**<page>**&curonly=1&templates=1&action=submit 

这也有效,但我有问题,例如西里尔字符。它们是为页面编码的(很多 %)。但这似乎不起作用。我总是只取回架构定义。如果我在浏览器中输入地址(见上文),它就会工作。 我已经尝试过 --remote-encoding=UTF-8 。它会影响窗户!

windows wget wikipedia
1个回答
0
投票

通过

为目标服务器设置编码是不够的
 --remote-encoding=UTF8

指定。 对于输入,也必须这样做。

--local-encoding=UTF8

然后 wget 不会用 % 替换它。否则 wget 假定 ASCII 编码并使用 % 替换。

© www.soinside.com 2019 - 2024. All rights reserved.