十多年前,我曾经在维基词典和媒体维基上进行了大量的黑客活动。我似乎记得我曾经使用某种方法来获取页面的 HTML,而没有大部分界面,如菜单、侧边栏、页眉、页脚等。
我以为这只是使用特殊的 HTML 参数完成的,很像
raw
和 printable
,但我似乎无法在 URL 帮助页面中找到它。
可能是我的记忆不准确,也许我使用了旧的API。
这对于处理文本语料库(例如使用马尔可夫链)以及尝试解析维基词典格式等来说都是一个福音。我曾经抓取这个版本并转换为纯文本或使用 HTML 解析器等。
我似乎记得可能有帮助的一件事是它没有删除所有不需要的东西。例如,我认为它保留了目录。但它摆脱了绝大多数。
有谁知道是否有一个 URL 参数,或者知道我当时可能在做什么?如果没有,使用旧 API 或新 REST API 的方法将会很有趣。
我尝试了什么?
我用了谷歌,我在StackOverflow上搜索,我绞尽脑汁,我寻找URL参数文档。
我期待什么?
我希望记住我曾经做过的事情,或者找到我曾经做过的旧方法并记录下来,或者达到相同目的的新方法。