使用Amazon Sagemaker实际自动标记文本数据

问题描述 投票:0回答:2

基础事实进行自动标记所需的最小文本行数是多少?我有一个包含1000行的文本文件,这是否足以开始使用sagemaker实际的自动标记?

amazon-web-services amazon-sagemaker labeling
2个回答
2
投票

我是Amazon SageMaker Ground Truth团队的产品经理,我很乐意帮助您解决这个问题。最低系统要求是1,000个对象。在文本分类的实践中,我们通常只有在拥有2,000到3,000个文本对象时才能看到有意义的结果(自动标记数据的百分比)。请记住,性能是可变的,取决于您的数据集和任务的复杂性。


0
投票

从文档中,

您应该仅对大型数据集使用自动数据标记。与主动学习一起使用的神经网络需要每个新数据集的大量数据。对于较大的数据集,更有可能自动标记数据,从而降低标签的总成本。我们建议您在使用自动数据标签时使用数千个数据对象。您必须至少使用5,000个数据对象

https://docs.aws.amazon.com/sagemaker/latest/dg/sms-automated-labeling.html

© www.soinside.com 2019 - 2024. All rights reserved.