Starspace:labelDoc fileFormat的解释是什么?

问题描述 投票:0回答:1

星空文档尚不清楚参数'fileFormat'是否带有值'labelDoc'或'fastText'。我想直观地了解此参数设置会有什么实质性差异。

[目前,我的最佳猜测是,如果将fileFormat设置为'fastText',则培训文件中所有不带前缀'__label__'的标记都将被分解为字符级n-gram,就像fastText一样。或者,如果将fileFormat设置为'labelDoc',则starspace会假定所有标记实际上都是标签,并且不需要在标记之前加上'__label__',因为它们仍然会被识别为标签。

我的想法正确吗?

facebook nlp word-embedding
1个回答
1
投票

StarSpace使用标签的方式在很大程度上取决于您所使用的trainMode。 labelDoc格式在您使用仅依赖标签的trainMode时非常有用(trainMode 1到4),其中使用fastText格式指定__label__前缀可能是同一回事,但是有些trainModes受益于labelDoc格式(即trainMode 1或3),可以将整个句子用作该trainMode的标签元素。

因此要澄清的是,如果您正在执行文本分类任务(如this example中所述,labelDoc不会识别任何输入,但是正如您所说,使用fastText格式将细分所有未标记的文本作为输入,并学习预测__label__标签。

并且labelDoc格式的示例将是开发基于内容的推荐系统(如this example中所述),在培训期间,LHS或RHS使用每个制表符分隔的句子。但是,如果您采用协作方式(不考虑文章的内容或句子的来源),则可以使用fastText(指定__label__前缀)或labelDoc]进行培训。 >文件格式,因为在LHS或RHS的训练期间会随机选择标签。 (此第二个示例已解释here。)>

© www.soinside.com 2019 - 2024. All rights reserved.