计算维基百科中单词的频率

问题描述 投票:0回答:1

我需要从Wikipedia中提取信息,但是我不知道如何进行。我要做的是以下操作:

给出单词'w',我怎么计算'w'在整个英语维基百科中出现的次数?网上是否已有列表?如果没有,我该怎么做?我是编码的新手,我正在尝试一些与NLP相关的任务的实验。

谢谢!

nlp wikipedia
1个回答
0
投票

首先下载Wikipedia转储(例如XML格式)如果您使用的是基于UNIX的操作系统(例如LINUX或Mac OS X),则可以使用grep。参见here

Python也可用于计算文件中指定字符串的出现次数参见here

© www.soinside.com 2019 - 2024. All rights reserved.