来自维基百科的解析器用户页面信息。如何删除多余的信息？

Question

我正在尝试使用API从Wikipedia中获取公共用户信息。（使用脚本get_pages_revisions.py）。在获得修订后，我使用BeautifulSoup剥离了所有HTML标记。但是，我发现剩余的文本仍然很混乱。

例如，当我从User:(aeropagitica)中获取文本数据时，结果显示如下：（一小部分）

{{administrator}}
{{divbox|gray||Wikipedia is currently working on {{NUMBEROFARTICLES}} articles. The local time at the Wikipedia servers is '''{{CURRENTTIME}}''' on {{CURRENTDAYNAME}} {{CURRENTDAY}} {{CURRENTMONTHNAME}}, {{CURRENTYEAR}}.}}

• '''[[:WP:AIV|AIV]]''' • 
'''[[Wikipedia:Articles for deletion/Log/{{CURRENTYEAR}} {{CURRENTMONTHNAME}} {{CURRENTDAY}}|AfD]]''' • '''[[User:(aeropagitica)/RFA summary|RfA]]''' • '''[[:Category:Candidates for speedy deletion|CSD]]''' • '''[[Wikipedia:Template messages|tpl]]''' • '''[[Wikipedia:Template_messages/User_talk_namespace|user talk tpl]]''' • '''[[Special:Newpages|new]]''' • '''[[Wikipedia:Stubs|stubs]]''' • '''[[Wikipedia:Copyright problems|(c)]]''' • '''[[Wikipedia:Manual of Style|MoS]]''' • '''[[User:Interiot/Tool2|edits (interiot)]]''' • '''[[Wikipedia:Proposed_deletion|prod]]''' • '''[[Special:Log/Newusers|newusers]]''' • '''[http://tools.wikimedia.de/~essjay/edit_count/Count.php? PHP interiot's tool]''' • '''[http://tools.wikimedia.de/~interiot/cgi-bin/Tool1/wannabe_kate Interiot's tool 1]''' • '''[[:Wikipedia:Article Creation and Improvement Drive|Article Improvement]]'''

{{purge|Purge server cache}}

I was [[Wikipedia:Requests_for_adminship/%28aeropagitica%29|nominated for adminship]] by [[User:King of Hearts|King of Hearts]] on February 27th 2006. The vote achieved consensus and I was accepted for the role with a score of '''40/10/5''' on March 7th 2006. 

When I am not working on Wikipedia pages, I enjoy learning to play acoustic fingerstyle guitar, photography, learning languages (Spanish and French) and travel.

''Userboxes''

{| style="text-align:center; border: 1px solid #000000; background-color:#00cc99; width:100%; -moz-border-radius: 15px;"
|-  padding:5em;padding-top:0.5em;"
|{{user en}}

我可以问：

如何在这里删除style="...."，cellpadding="...."之类的字符串？我可以一次删除所有这些格式字符串吗？
有很多这样的块：

{{Userbox|#77E0E8|#D0F8FF|{{CURRENTDAY}}|It is currently a [[{{CURRENTDAYNAME}}]]. I don't like {{CURRENTDAYNAME}}s.}}

“是..”之后的信息是我们所需要的，但其前面的文本Userbox|#77E0E8也用于Web布局定义，应将其删除。有什么办法可以删除该行的前半部分？（Userbox只是其中的一种，还有许多其他类型，例如User:，Category:，因此使用自定义re规则很难移动它们））

（我是BeautifulSoup和Web Parser的初学者，所以任何建议或提示都将很有价值。谢谢您的事先帮助！）

我正在尝试使用API从Wikipedia中获取公共用户信息。（使用脚本get_pages_revisions.py）。在获得修订后，我使用BeautifulSoup剥离了所有HTML标记。但是，我...

Answer 1

您正在使用Revisions API，该API仅允许您以Wikitext的形式获取页面内容。这就是您看到的“混乱”文本。

来自维基百科的解析器用户页面信息。如何删除多余的信息？

问题描述投票：0回答：1

1个回答

最新问题

来自维基百科的解析器用户页面信息。如何删除多余的信息？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1