是否有任何工具可以从Java的英文文本或文章中提取关键字?

问题描述 投票:3回答:2

[我正在尝试通过机器识别网站的类型(英语)。我尝试下载网站iste的主页,下载html页面,进行解析并获取该网页的内容。例如,这是来自CNN.com的一些上下文。我尝试获取与数据库映射的网页关键字。如果关键字包含新闻,则为突发新闻。该网站将转到新闻网站。如果存在健康,医疗等字眼,它将是医疗网站。

[存在一些可以做文本分割的工具,但是要找到一个可以做语义的工具并不容易,例如online shopping,它是一个关键字,不应该漏两个字。该组合将是有用的信息。但是“ oneline”,“ shopping”将不太有用,因为它可能存在在线旅行中...

•纽瓦克,肯尼迪国际机场重新开放•1条跑道在拉瓜迪亚机场重新开放•周一取消了4,155个航班•完整故事

* LaGuardia Airport snowplows busy Video
* Are you stranded? | Airport delays
* Safety tips for winter weather
* Frosty fun Video | Small dog, deep snow

最新新闻

* Easter eggs used to smuggle cocaine
* Salmonella forces cilantro, parsley recall
* Obama's surprising verdict on Vick
* Blue Note baritone Bernie Wilson dead
* Busch aide to 911: She's not waking up
* Girl, 15, last seen working at store in '90
* Teena Marie's death shocks fans
* Terror network 'dismantled' in Morocco
* Saudis: 'Militant' had al Qaeda ties
* Ticker: Gov. blasts Obama 'birthers'
* Game show goof is 800K mistakeVideo
* Chopper saves calf on frozen pondVideo
* Pickpocketing becomes hands-freeVideo
* Chilean miners going to Disney World
* Who's the most intriguing of 2010?
* Natalie Portman is pregnant, engaged
* 'Convert all gifts from aunt'  CNNMoney
* Who controls the thermostat at home?
* This Just In: CNN's news blog
java parsing text semantics
2个回答
2
投票

我了解,通常,您需要用于文本信息的语义分类的工具。在这种情况下,将文本映射到数据库中的关键字不是最佳方法,因为它没有考虑单词的polysemysynonymy。为了克服这些限制,发明了许多技术。最知名的是LSA及其后代,例如PLSARI

但是它们都不能单独用几个词来解决问题。处理此类术语的最严格方法是术语中的连接词。即,将所有出现的“在线购物”替换为单个串联术语“在线购物”。是的,这将需要O(N * M),其中N是文本中的多个单词,M是要处理的多个多单词项,但是我的经验表明,这是最健壮且计算效率最高的方法(请,如果您知道更好的方法,请通知我)。

如果已经有了词干标记的流,则还可以使用某种模式匹配查找组成词项的单词序列。

Also FYI:在自然语言处理领域中,有一些方法可以帮助从文本本身中获取关键字和概念。例如,请参见AlchemyAPI - archived


0
投票

我尝试获取该网站的关键字。之后,我用这些词进行映射,可以确定网站的类型。在数据库中,存在一些词,例如:新闻网站:新闻,重大新闻,购物网站:ebay,amazone ....

© www.soinside.com 2019 - 2024. All rights reserved.