来自维基百科的解析器用户页面信息。如何删除多余的信息?

问题描述 投票:0回答:1

我正在尝试使用API​​从Wikipedia中获取公共用户信息。 (使用脚本get_pages_revisions.py)。在获得修订后,我使用BeautifulSoup剥离了所有HTML标记。但是,我发现剩余的文本仍然很混乱。

例如,当我从User:(aeropagitica)中获取文本数据时,结果显示如下:(一小部分)

{{administrator}}
{{divbox|gray||Wikipedia is currently working on {{NUMBEROFARTICLES}} articles. The local time at the Wikipedia servers is '''{{CURRENTTIME}}''' on {{CURRENTDAYNAME}} {{CURRENTDAY}} {{CURRENTMONTHNAME}}, {{CURRENTYEAR}}.}}

• '''[[:WP:AIV|AIV]]''' • 
'''[[Wikipedia:Articles for deletion/Log/{{CURRENTYEAR}} {{CURRENTMONTHNAME}} {{CURRENTDAY}}|AfD]]''' • '''[[User:(aeropagitica)/RFA summary|RfA]]''' • '''[[:Category:Candidates for speedy deletion|CSD]]''' • '''[[Wikipedia:Template messages|tpl]]''' • '''[[Wikipedia:Template_messages/User_talk_namespace|user talk tpl]]''' • '''[[Special:Newpages|new]]''' • '''[[Wikipedia:Stubs|stubs]]''' • '''[[Wikipedia:Copyright problems|(c)]]''' • '''[[Wikipedia:Manual of Style|MoS]]''' • '''[[User:Interiot/Tool2|edits (interiot)]]''' • '''[[Wikipedia:Proposed_deletion|prod]]''' • '''[[Special:Log/Newusers|newusers]]''' • '''[http://tools.wikimedia.de/~essjay/edit_count/Count.php? PHP interiot's tool]''' • '''[http://tools.wikimedia.de/~interiot/cgi-bin/Tool1/wannabe_kate Interiot's tool 1]''' • '''[[:Wikipedia:Article Creation and Improvement Drive|Article Improvement]]'''

{{purge|Purge server cache}}

I was [[Wikipedia:Requests_for_adminship/%28aeropagitica%29|nominated for adminship]] by [[User:King of Hearts|King of Hearts]] on February 27th 2006. The vote achieved consensus and I was accepted for the role with a score of '''40/10/5''' on March 7th 2006. 

When I am not working on Wikipedia pages, I enjoy learning to play acoustic fingerstyle guitar, photography, learning languages (Spanish and French) and travel.

''Userboxes''

{| style="text-align:center; border: 1px solid #000000; background-color:#00cc99; width:100%; -moz-border-radius: 15px;"
|-  padding:5em;padding-top:0.5em;"
|{{user en}}

我可以问:

  1. 如何在这里删除style="...."cellpadding="...."之类的字符串?我可以一次删除所有这些格式字符串吗?
  2. 有很多这样的块:
{{Userbox|#77E0E8|#D0F8FF|{{CURRENTDAY}}|It is currently a [[{{CURRENTDAYNAME}}]]. I don't like {{CURRENTDAYNAME}}s.}}

“是..”之后的信息是我们所需要的,但其前面的文本Userbox|#77E0E8也用于Web布局定义,应将其删除。有什么办法可以删除该行的前半部分?(Userbox只是其中的一种,还有许多其他类型,例如User:Category:,因此使用自定义re规则很难移动它们))

(我是BeautifulSoup和Web Parser的初学者,所以任何建议或提示都将很有价值。谢谢您的事先帮助!)

我正在尝试使用API​​从Wikipedia中获取公共用户信息。 (使用脚本get_pages_revisions.py)。在获得修订后,我使用BeautifulSoup剥离了所有HTML标记。但是,我...

html parsing beautifulsoup html-parsing mediawiki
1个回答
1
投票

您正在使用Revisions API,该API仅允许您以Wikitext的形式获取页面内容。这就是您看到的“混乱”文本。

© www.soinside.com 2019 - 2024. All rights reserved.