从WIkipedia页面中提取公式 - Python

问题描述 投票:0回答:1

我正在提取维基百科页面并使用python将它们写在一个文件中。目前我这样做:代码片段:

keyWords = ["kinetic energy", "gravitational force"]

for word in keyWords:
    topic = wikipedia.page(word)
    text = topic.content
    print text

但是,当显示公式时,内容的格式错误。例如:

F = ma becomes something like :

F

   m

a

你能帮我弄清楚我怎样才能干净利落地掌握数学公式。谢谢!

python web-scraping wikipedia-api
1个回答
1
投票

维基百科模块抓取的维基百科页面中没有LaTeX。为了从维基百科页面中提取所有方程式,您可以利用BeautifulSoup包。

import wikipedia
from bs4 import BeautifulSoup

topic = wikipedia.page('kinetic energy')
equations = BeautifulSoup(topic.html()).find_all('annotation')

然后,您可以通过提取任何给定方程的来源

equations[0].text
#'{\\displaystyle {\\vec {F}}=m{\\vec {a}}}'

要么

equations[0].text.split('{\\displaystyle ')[1][:-1]
#'{\\vec {F}}=m{\\vec {a}}'

虽然这仍然不是一个完全有用的格式。您还应该注意,由于对变量的引用会产生很多“单字母”方程,因此这可能不是最好的方法。你想达到什么目的?

© www.soinside.com 2019 - 2024. All rights reserved.