哪里可以获得结构化数据的英语词典? [已关闭]

问题描述 投票:0回答:5

我想下载一本英语词典 - 不仅仅是一个 单词列表 - 采用 TXT、XML 或 SQL 等结构化格式。

具体来说,我需要语音发音词类(不需要定义)。

令人惊讶的是,我在网上找不到这个。 Wiktionary 可以下载,但它只是 MediaWiki 文章本身。爬取所有文章并提取语音和词性将是一项巨大的工作。

这个在任何地方都可以买到吗?我不介意付钱。

编辑:有几个人问我想做什么。我当前的需求只是好奇心,例如“最常见的双音节动词是什么?”。最终,我希望有一个工具可以帮助您找到可用的域名,并通过配对正确的词性来实现这一点,并为语音匹配提供奖励积分。

注:交叉发布于英语语言和用法

open-source resources phonetics
5个回答
17
投票

前往 http://www.speech.cs.cmu.edu/cgi-bin/cmudict ,您将在 https://cmusphinx.svn.sourceforge.net/svnroot 找到发音词典的下载页面/cmusphinx/主干/cmudict/

目前最新版本是cmudict.0.7a。

这就是我目前用来实现 http://www.haikuvillage.com 的音节计数器的方法。它是用 Ruby 编写的,如果有帮助的话,我很乐意为您开源。


8
投票

具有高度结构化格式的公共领域词性词典:http://icon.shef.ac.uk/Moby/mpos.html

每一行是一个词条,用×分隔,左边是词值,右边是词性值(动词等)。简单的文本文件。


6
投票

Wordnet 是我所知道的最好的词典之一。也许你会在那里找到一些东西: https://wordnet.princeton.edu/lated-projects



1
投票
这不是您问题的直接答案,但 Double Metaphone 算法非常擅长为搜索引擎应用服务器(例如 Solr 等)查找单词或短语匹配。

我不知道你的目的是什么,所以我不知道我的建议是否有用。如果它接近您的预期用途,关于 Double Metaphone 的维基百科页面列出了大约十几个它的实现,这些实现可能

值得探索。 http://en.wikipedia.org/wiki/Double_Metaphone

© www.soinside.com 2019 - 2024. All rights reserved.