我需要从Wikipedia中提取信息,但是我不知道如何进行。我要做的是以下操作:
给出单词'w',我怎么计算'w'在整个英语维基百科中出现的次数?网上是否已有列表?如果没有,我该怎么做?我是编码的新手,我正在尝试一些与NLP相关的任务的实验。
谢谢!
首先下载Wikipedia转储(例如XML格式)如果您使用的是基于UNIX的操作系统(例如LINUX或Mac OS X),则可以使用grep。参见here
Python也可用于计算文件中指定字符串的出现次数参见here