如何从目前的维基百科文章中获取相关主题?

问题描述 投票:1回答:2

我正在编写一个用户应用程序,它将用户的输入作为当前打开的维基百科页面。我编写了一段代码,将其作为模块的输入,并使用webscraping和自然语言处理生成与该特定文章相关的关键字列表。

我想通过提供我已经识别的关键字,以及用户可能感兴趣的一组相关主题来扩展应用程序的功能。维基百科是否提供了可以解决问题的API。如果没有,任何人都可以指出我应该研究的内容(因为我必须从头开始编写代码)。此外,我将非常感谢任何指出任何能够训练机器识别主题图的算法的指针。我不是在寻求任何论文,而是一种基本的实际实现

总结一下,

  1. 我需要一种方法来找到与维基百科中当前文章相关的主题(类别也会这样做)
  2. 我还将欣赏一种用于训练机器以识别通常相关和聚集的主题的示例算法。

PS。请具体,因为我已经研究了一些明显的可能性,谢谢你,谢谢

python keyword wikipedia topic-maps
2个回答
0
投票

如果需要,您可以刮取类别。如果你正在使用python,你可以直接从他们的API读取wikitext,并使用mwlib来解析文章并找到链接。

更有趣但更难实现的方法是创建相关术语的集群,并且给出从文章中提取的术语列表,找到与它们最接近的术语。


0
投票

“另见”是维基百科页面中经常出现的部分。它的结构类似于下面的例子,来自[[Article(publishing)]]:

==See also==
* [[Article directory]]
* [[Electronic article]]

然后你应该解析wikicode(你可以通过转储或Mediawiki API,如前面的答案所示),并使用上面提到的文章。

另一种方法是直接使用维基百科类别there are APIs for that

© www.soinside.com 2019 - 2024. All rights reserved.