CTC:空格和空格之间有什么区别?

问题描述 投票:1回答:1

[在2006年article关于连接主义者的时间分类中,Alex Graves&co。引入了一种解码带有27标签的语音的模型:26个代表字母,一个代表blank,这意味着没有标签(我理解为silence)。

但是,我看到很多使用28标签的CTC实现,一个是blank,另一个是space。到目前为止,我仍无法找到需要同时使用这两个标签的解释,对我而言,它们代表的是同一件事。

您能否解释一下在CTC中空白和空格之间的区别,以及为什么同时需要这两个标签?

speech-recognition speech-to-text speech labeling ctc
1个回答
0
投票

在连接主义者的时间分类中,[[space只是一个空格和空格为“-”,用于解决重复数据再次出现。例如,“披萨”将被编码为“ piz-za”。

TLDR;

在CTC中,存在如何编码重复字符的问题。通过引入伪字符(称为空格,但不要将其与“真实”空格(即空格字符)混淆)来解决该问题。该特殊字符在文本中将表示为“-”。我们使用聪明的编码方案来解决重复字符问题:对文本进行编码时,我们可以在任意位置插入任意多个空格,在解码时会将其删除。但是,我们必须在重复的字符之间插入空格,例如“ hello”。此外,我们可以根据需要重复每个字符。让我们看一些例子:“至”→“ --- ttttttooo”或“ -t-o-”或“至”“太”→“ --- ttttto-o”或“ -t-o-o-”或“ to-o”,但不包括“ too”如您所见,这种模式还使我们能够轻松地为同一文本创建不同的对齐方式,例如“ t-o”,“ too”和“ -to”都表示相同的文本(“ to”),但与图像的对齐方式不同。训练NN以输出编码的文本(在NN输出矩阵中编码)。

© www.soinside.com 2019 - 2024. All rights reserved.