我发现 Twitter nlp 在标记方面很有帮助。它给出了给定句子的所有可能标签。
“总经理先生”给予
先生早上好|总经理先生|通用汽车先生|好比赛先生|游戏大师先生|好棋先生|大师先生|早上好先生。
有什么方法可以根据输入句子而不是所有可能的结果来获得最合适的“gm”替换吗?
看来“最合适的替代品”取决于上下文。例如,在主要与游戏相关的页面中,“游戏大师先生”可能是更好的匹配。您是否考虑过根据某些上下文数据,使用某种相似性特征,在其中选择最佳匹配?这似乎是一个很好的起点
http://mahout.apache.org/users/classification/twenty-newsgroups.html可以用来解决我的问题。我只需要抓取网站即可获取训练数据。