培训自定义NER模型以识别实体

Question

我们使用NER模型来识别像组织，百分比，金钱，数字等实体 - 我们想添加一个实体（我认为我们不能扩展模型）或构建另一个模型来标记这些实体（我们正在寻找对金融证券进行分类）。我刚开始看这个并且已经使用了目前可用的模型。

我正在寻找https://nlp.stanford.edu/software/crf-faq.shtml#a开始定制模型是否有我需要看的样本数据文件？

这仍然意味着唯一可以标记的实体是已经可用的实体，如组织，日期，金钱，位置......

是否需要对java文件进行任何更改，即我将从哪个开始了解分类器的工作方式。

基本上对于一些文本：如2020年10月30日到期的2.200％票据本金额$ 1,500,000,000.00 $ 186,750.00

I'd like to tag:
<security>2.200% Notes due October 30, 2020</security> the principal amount   $ 1,500,000,000.00   $ 186,750.00

Answer 1

您可以使用以下格式训练新的序列标记器：

Joe     PERSON
Smith   PERSON
was     O
born    O
in      O
California   LOCATION
.       O

He      O
works   O
for     O
Apple   ORGANIZATION
.       O

请注意，它应该是\t将标记与标记分开。您可以使用任何您想要的标签。然后，统计标记器将能够应用它在训练数据中看到的标签。

如果在模型jar中查看此文件，您可以看到应该使用的属性文件的完整详细信息：

edu/stanford/nlp/models/ner/english.all.3class.distsim.prop

我应该注意，如果您尝试提取的内容遵循一些基本模式，那么使用基于规则的方法可能会获得更好的结果。

以下是StanfordCoreNLP中基于规则的方法的一些文档：

https://nlp.stanford.edu/software/tokensregex.html

培训自定义NER模型以识别实体

问题描述投票：0回答：1

1个回答

最新问题

培训自定义NER模型以识别实体

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1