有没有办法只获取主要文章正文的维基百科/维基词典 HTML?

问题描述 投票:0回答:1

十多年前,我曾经在维基词典和媒体维基上进行了大量的黑客活动。我似乎记得我曾经使用某种方法来获取页面的 HTML,而没有大部分界面,如菜单、侧边栏、页眉、页脚等。

我以为这只是使用特殊的 HTML 参数完成的,很像

raw
printable
,但我似乎无法在 URL 帮助页面中找到它。

可能是我的记忆不准确,也许我使用了旧的API

这对于处理文本语料库(例如使用马尔可夫链)以及尝试解析维基词典格式等来说都是一个福音。我曾经抓取这个版本并转换为纯文本或使用 HTML 解析器等。

我似乎记得可能有帮助的一件事是它没有删除所有不需要的东西。例如,我认为它保留了目录。但它摆脱了绝大多数。

有谁知道是否有一个 URL 参数,或者知道我当时可能在做什么?如果没有,使用旧 API 或新 REST API 的方法将会很有趣。

我尝试了什么?
我用了谷歌,我在StackOverflow上搜索,我绞尽脑汁,我寻找URL参数文档。

我期待什么?
我希望记住我曾经做过的事情,或者找到我曾经做过的旧方法并记录下来,或者达到相同目的的新方法。

mediawiki mediawiki-api
1个回答
0
投票

尝试使用

raw
,而不是
render
。 (相关文档是 index.php 的参数。)尽管为了认真使用,我建议改用 API。

© www.soinside.com 2019 - 2024. All rights reserved.