基础事实进行自动标记所需的最小文本行数是多少?我有一个包含1000行的文本文件,这是否足以开始使用sagemaker实际的自动标记?
我是Amazon SageMaker Ground Truth团队的产品经理,我很乐意帮助您解决这个问题。最低系统要求是1,000个对象。在文本分类的实践中,我们通常只有在拥有2,000到3,000个文本对象时才能看到有意义的结果(自动标记数据的百分比)。请记住,性能是可变的,取决于您的数据集和任务的复杂性。
从文档中,
您应该仅对大型数据集使用自动数据标记。与主动学习一起使用的神经网络需要每个新数据集的大量数据。对于较大的数据集,更有可能自动标记数据,从而降低标签的总成本。我们建议您在使用自动数据标签时使用数千个数据对象。您必须至少使用5,000个数据对象
https://docs.aws.amazon.com/sagemaker/latest/dg/sms-automated-labeling.html