栏目导航

香港王中王正版挂牌

 

8倍提升表现:谷歌新算法从多人对话里分清谁在
发表时间:2019-08-19
2017-06-28         

  其实,从多人对话的音频里,分辨出哪段话是哪个人说的,早就不是新鲜问题了。

  他们不想被传统做法困住,开发了新方法:利用语音识别,把语言学线索和声学线索搭配食用,帮助区分。

  团队还发现,要有机结合这两种线索,RNN-Transducer (RNN-T) 是最合适的架构。

  最终结果,谷歌新模型把单词级的错误率 (WDER) ,从15.8%降到了2.2%。且多种错误情况皆有明显改善。

  谷歌团队总结了四个主要的局限:第一,对话先要被拆解成单人片段。不然就没办法准确传达一个说话人的特征。

  但事实上,现有的说话人变换检测方法不完美,会导致拆分出的片段里,还是有多个说话人。

  第二,聚类的时候,必须要知道总共有多少个说话人。这个信息如果不准确,就会严重影响模型的表现。

  片段越长,嗓音名片的质量就越好,因为每个说话人的信息多了。但风险在于,短暂的插话 (Short Interjections) 容易被判断错误。

  患者回答“有 (Yes.) ”,和医生问“有么 (Yes?) ”,差别是很大的。

  RNN-T这个架构,原本是在语音识别上大展拳脚。而团队发现,它最适合用来把声学和语言学的线索整合到一起。注意,语音识别和说话人区分,不是暴力结合,是优雅地整合成了一个简单系统。

  二是预测网络,负责根据前面的目标标签 (Target Labels) ,预测下个目标标签。RNN-T能预测的符号 (Symbol) 更丰富,如说话人角色 (Speaker Role) ,如发音 (Pronunciation) 。

  三是联合网络,把前两个网络的输出结合起来,在输出标签的集合上,生成一个当前时间步的概率分布马报

  划重点,架构里有一个反馈循环 (Feedback Loop) 。在这里,先前识别出的单词都会作为输入,反馈回去。

  这样,RNN-T模型就能利用语言学的线索了:比如一个问句结束,很可能是要换人了。

  训练样本,是一个人说的话加上一个标签 (Tag) ,用来定义说话人的角色。比如:

  结果,说话人区分的单词级错误率 (Word Diarization Error Rate) ,从基线%。

  说话人在很短的时间里发生变化,单词边界 (Word Boundaries) 处的切分,语音重叠造成的数据集说话人标注错误,以及音频质量差的问题。

  团队还补充说,RNN-T系统在各种不同的对话里,平均错误率比传统方法更稳定:方差更小。


友情链接:
Copyright 2018-2021 主页 版权所有,未经授权,禁止转载。