从维基百科文章(Python)中提取第一段

问题描述 投票:34回答:10

如何使用Python从Wikipedia文章中提取第一段?

例如,阿尔伯特爱因斯坦,那将是:

阿尔伯特爱因斯坦(发音为/ælbərtaɪnstaɪn/;德语:[albɐtaɪnʃtaɪn](听); 1879年3月14日 - 1955年4月18日)是理论物理学家,哲学家和作家,被广泛认为是最具影响力和标志性的科学家和知识分子之一有史以来作为德国 - 瑞士诺贝尔奖获得者,爱因斯坦经常被视为现代物理学之父。[2]他获得了1921年诺贝尔物理学奖,“因为他为理论物理学服务,特别是他发现了光电效应定律”。[3]

python wikipedia
10个回答
38
投票

前段时间我用纯文本获得维基百科文章。我知道它们不是最好的解决方案,但您可以根据自己的需求进行调整:

wikipedia.py wiki2plain.py

你可以像这样使用它:

from wikipedia import Wikipedia
from wiki2plain import Wiki2Plain

lang = 'simple'
wiki = Wikipedia(lang)

try:
    raw = wiki.article('Uruguay')
except:
    raw = None

if raw:
    wiki2plain = Wiki2Plain(raw)
    content = wiki2plain.text

0
投票

相对较新的REST API有一个summary方法,非常适合这种用途,并在这里做了很多其他答案中提到的事情(例如删除wikicode)。它甚至包括图像和地理坐标(如果适用)。

使用可爱的requests模块和Python 3:

import requests
r = requests.get("https://en.wikipedia.org/api/rest_v1/page/summary/Amsterdam")
page = r.json()
print(page["extract"]) # Returns 'Amsterdam is the capital and...'

39
投票

我写了一个Python库,旨在使这很容易。在Github查看。

要安装它,请运行

$ pip install wikipedia

然后要获得文章的第一段,只需使用wikipedia.summary函数。

>>> import wikipedia
>>> print wikipedia.summary("Albert Einstein", sentences=2)

版画

阿尔伯特爱因斯坦(/ælbərtaɪnstaɪn/;德语:[albɐtaɪnʃtaɪn](听); 1879年3月14日 - 1955年4月18日)是德国出生的理论物理学家,他发展了广义相对论,是现代物理学的两大支柱之一(与量子力学一起)。虽然他以质量能量等价公式E = mc2(被称为“世界上最着名的方程式”)而闻名,但他获得了1921年诺贝尔物理学奖,因为他为理论物理学提供的服务,特别是他的发现光电效应定律“。

至于它是如何工作的,wikipedia向MediaWiki API的Mobile Frontend Extension发出请求,该API返回维基百科文章的移动友好版本。具体而言,通过传递参数prop=extracts&exsectionformat=plain,MediaWiki服务器将解析Wikitext并返回您正在请求的文章的纯文本摘要,包括整个页面文本。它还接受参数excharsexsentences,这毫不奇怪地限制了API返回的字符和句子的数量。


10
投票

我做的是这样的:

import urllib
import urllib2
from BeautifulSoup import BeautifulSoup

article= "Albert Einstein"
article = urllib.quote(article)

opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')] #wikipedia needs this

resource = opener.open("http://en.wikipedia.org/wiki/" + article)
data = resource.read()
resource.close()
soup = BeautifulSoup(data)
print soup.find('div',id="bodyContent").p

8
投票

Wikipedia运行MediaWiki扩展,将此功能作为API模块提供。 TextExtracts实现了action=query&prop=extracts,可以选择返回前N个句子和/或只是引言,如HTML或纯文本。

这是您要制作的API调用,请尝试:https://en.wikipedia.org/w/api.php?action=query&prop=extracts&titles=Albert%20Einstein&exintro=&exsentences=2&explaintext=&redirects=&formatversion=2

  • action=query&prop=extracts要求提供此信息
  • (ex)sentence = 2,(ex)intro =,(ex)plaintext,是模块的参数(参见其API文档的第一个链接),要求从简介中的两个句子作为纯文本;为HTML留下后者。
  • redirects=(true)所以,如果你要求“titles = Einstein”,你将获得Albert Einstein页面信息
  • formatversion=2用于UTF-8的更清洁格式。

有各种各样的库来包装调用MediaWiki动作API,例如在DGund的答案中的那个,但是自己进行API调用并不太难。

Page info in search results讨论了获取此文本摘录,以及获取文章的描述和引导图像。


2
投票

首先,我保证我不会嗤之以鼻。

这是以前可能有用的问题:Fetch a Wikipedia article with Python

在这个人建议使用维基百科高级API,这导致这个问题:

Is there a Wikipedia API?


2
投票

如果你想要图书馆的建议,BeautifulSoupurllib2会浮现在脑海中。在之前回答:Web scraping with Python

我已经尝试过urllib2来获取维基百科的页面。但是,这是403(禁止)。 MediaWiki为Wikipedia提供API,支持各种输出格式。我没有使用python-wikitools,但可能值得一试。 http://code.google.com/p/python-wikitools/


1
投票

正如其他人所说,一种方法是使用维基媒体API和urllib或urllib2。下面的代码片段是我用来提取所谓的“引导”部分的一部分,其中包含文章摘要和信息框。这将检查返回的文本是否是重定向而不是实际内容,并且还允许您跳过信息框(如果存在)(在我的情况下,我使用不同的代码来拉出并格式化信息框。

contentBaseURL='http://en.wikipedia.org/w/index.php?title='

def getContent(title):
    URL=contentBaseURL+title+'&action=raw&section=0'
    f=urllib.urlopen(URL)
    rawContent=f.read()
    return rawContent

infoboxPresent = 0
# Check if a redirect was returned.  If so, go to the redirection target
    if rawContent.find('#REDIRECT') == 0:
        rawContent = getFullContent(title)
        # extract the redirection title
        # Extract and format the Infobox
        redirectStart=rawContent.find('#REDIRECT[[')+11   
        count = 0
        redirectEnd = 0
        for i, char in enumerate(rawContent[redirectStart:-1]):
            if char == "[": count += 1
            if char == "]}":
                count -= 1
                if count == 0:
                    redirectEnd = i+redirectStart+1
                    break
        redirectTitle = rawContent[redirectStart:redirectEnd]
        print 'redirectTitle is: ',redirectTitle
        rawContent = getContent(redirectTitle)

    # Skip the Infobox
    infoboxStart=rawContent.find("{{Infobox")   #Actually starts at the double {'s before "Infobox"
    count = 0
    infoboxEnd = 0
    for i, char in enumerate(rawContent[infoboxStart:-1]):
        if char == "{": count += 1
        if char == "}":
            count -= 1
            if count == 0:
                infoboxEnd = i+infoboxStart+1
                break

    if infoboxEnd <> 0:
        rawContent = rawContent[infoboxEnd:]

你将获得原始文本,包括维基标记,所以你需要做一些清理工作。如果您只想要第一段而不是整个第一段,请查找第一个新行字符。


0
投票

尝试使用urllib的组合来获取网站,并尝试使用BeautifulSouplxml来解析数据。


0
投票

试试pattern

pip install pattern

from pattern.web import Wikipedia
article = Wikipedia(language="af").search('Kaapstad', throttle=10)
print article.string
© www.soinside.com 2019 - 2024. All rights reserved.