确定属于某一主题

问题描述 投票:2回答:1

我有来自Twitter帐户的一些文本数据。这些推文包含的数字是指在健身房的特定区域(通常是举重室和有氧运动区域)有多少人。

我想提取举重室里的人数,但问题是文本很少以标准形式出现。一些例子包括:

81 WR 21 CM

Weight room is looking busy with 121 people, while cardio has only 20!

WR:200 CM:50

我可以列举帐户可以引用举重室的所有方式,但我需要一种方法来确定哪个号码属于哪个区域。

spacy可以执行一些语义归属的度量吗?任何人都可以将我推荐给一个资源,或建议以新的角度重新解决问题吗?

python nlp spacy
1个回答
0
投票

体重室看起来很忙121人,而有氧运动只有20人!

这将是一种监督技术。 1)对标签和依赖树使用spacy。 2)在它上面准备一个基于CRF ++的解析器。

https://taku910.github.io/crfpp/

© www.soinside.com 2019 - 2024. All rights reserved.