热门关键词:凯旋门国际平台,凯旋门国际平台首页  
百度ICML论文:端对端中英文语音识别【凯旋门国际平台首页】
2020-10-17 [85685]

论文作者: Dario Amodei,Rishita Anubhai,Eric Battenberg,Carl Case,Jared Casper,Bryan Catanzaro,jingdong Chen ADAM COSB Erich ElsenBaidu USA,Inc .Jesse Engel,Linxi Fan,Christopher Fougner Billy Jun Andrew Ng,Sherjil Ozair,Jonathan Raiman,Sanjeev SatheeshBaidu SVAIL,David Seetapun,Shubho Sengupta,Chong Wang 直前王丹尼yoga tama、君占、贞尧朱的概要我们展示了从终端到终端的深度自学方法,这些是完全不同的语言。 因为这种方法将整个手动设计的流水线网络替换为神经网络,并需要各种各样的声音来适应环境,如噪音、口音、不同的语言等。 方法的关键是HPC技术的应用,以前花了几周时间运营的实验,现在要求在几天内运营。

这样可以更慢地递归,识别更好的架构和算法。 结果表明,在以标准数据集为测试标准的情况下,我们的系统有时不足以与人工录音竞争。 最后,利用在数据中心被称为GPU出厂调度(Batch Dispatch with GPUs )的技术,我们的系统在经济上廉价地配置在网络设定的中央,在为大规模用户提供服务时很低1 .概述几十年来手工设计领域积累的科学知识已经转移到最先进设备的自动语音识别(ASR )等流水线上。 一个非常简单有效的替代方案是训练端到端的语音自动识别模式,深入自学的方法是将大部分模式替换为一个模型。

正如Hannun et al .2014aand GravesJaitly,2014b在他们的论文中提到的那样。 这种从终端到终端的训练方法修改了训练过程,以排除用作创建先进设备的自动语音识别(ASR )模式的人工导引/校准/集群/HMM机械装置。 在这样的系统中,制作端到端的深度自学,我们可以利用于一系列的深度自学技术,如猎取大的训练集、训练小模型、进行高性能的计算、以及有条理地探索神经网络的空间机制等。 本文详细说明了模型体系结构、带标签的大规模训练数据集、计算规模等对语音识别的贡献。

这包括通过模型架构进行的普遍调查,我们的数据收集流水线需要制作比一般作为训练语音识别系统使用的更大的数据集。 我们使用一些公开发表中可以使用的测试集来测试我们的系统,希望最后超过人类的水平。 因此,我们根据这个比较标准测试工人们的表现。

找出我们最糟糕的普通话语音系统结束录音的语音检索类的发言,不如典型的中国人来做吧。 本文的其馀部分如下。

我们在第一部分学习深入的自学内容、从末端到末端的语音识别、第二部分提到的扩展性。第三部分阐述了建筑和算法的改进模型,第四部分说明了有效计算它们的方法。 第五部分讨论更进一步的数据和逐步加强训练。

第六部分不显示英语和普通话系统分析的结果。 第七部分介绍了如何为环境可靠的用户配置系统. 2 .这项关于工作的研究的启发来源于深刻的自学和语音识别的前期研究。 通过网络的音响模型的展开最多达到了20年(BourlardMorgan,1993年)。

Renals et al .1994 ) .周期性神经网络与网络的卷积完全同时进行语音识别(Robinson et al .1996; Waibel et al .1989 )。 最近DNNs是ASR流水线的一个网络连接夹具和完全所有先进设备的语音作业包括某种形式的浅神经网络的现有技术Mohamed et al .2011; Hinton et al .2012; Dahl et al .2011; N. JaitlyVanhoucke,2012; Seide et al .2011 )。 卷积网络也不利于音响模式(Abdel-Hamidet al .2012; Sainath et al .2013 ) .周期性神经网络通过先进设备的分类器开始运用(Graves et al .2013; H. Sak et al .2014 )和卷积层合作进行了特征提取(Sainath et al .2015 )。

凯旋门国际平台

从末端到末端的语音识别是最重要的研究领域,完全恢复DNN-HMM的结果和作为独立国家输入使用时,显示了令人信服的结果。 RNN的编码器和解码器关注音素和字素的关注和预测。 在CTC功能的脆弱性上加上RNN处理数据在某种程度上与端到端语音识别的文字输入相对应。

CTC-RNN模式善于根据词汇表预测音素。 到目前为止,深入自学探索大规模是这个领域顺利的关键。 单个GPU训练提供显着的性能增益,然后线性地被限制为两个或更多个GPU。 我们利用减少每个GPU的生产率为低级深度自学图元。

我们基于过去用于模式平行和数据平行或两者的融合,为了建立比较慢的高效系统,加剧RNN在语音识别中的训练。 数据是端到端语音识别的关键,使用的是最多7000小时的语音。 增强的数据有助于提高深度自学计算机的视觉和语音识别性能。

因此,现有的语音系统可以用来领导新的数据收集。 例如,现有的语音引擎可以用于数千小时的音频本,用于排序和滤波。

我们从强化过去和数据的方法中得到提示,作为强化自己数据的标签使用。 3 .模型体系结构图1显示了我们的体系结构,本文明确提出了详细研究可交换的组件。

我们的系统是与一个或多个输出卷积层的迭代神经网络(RNN ),凸是多次发作(单向或双向)层和一个层几乎相连。 由于这个网络使用了CTC损失函数,所以必须根据输出语音预测字符串。 向该网络的输出是动力标准化音频剪辑,计算上20毫秒窗口的序列。

输入是各种语言的字母。 在每个输出的步骤中,RNN不进行预测。

在p(Lt/x )中,Lt是字母字符或不可能的符号。 在英语中,我们有字母a、b、c……、省略、空格。

我们用空间就像语言和语言的边界。 在中文系统中,修复了中文输入系统。 在推理小说的时间里,CTC模式中配合的语言模式是基于更大的语料库。

我们用同样的搜索方法查找y的最大值。 q (y )=log (PRNN (YJX ) ) log (PLM (y ) ) WC 在这个式子中,wc(y )是英语和中文在mRNA中的单词数。 的重量要求相关的语言模型和CTC网络。 我想要的重量中mRNA更好的单词。

这些参数是以发展调整为基础的。 3.1批量标准化的深层RNNs在处理训练集时,为了更有效地获取处理数据,需要减少网络深度,重新参加更好的周期层。

但是,网络的梯度根据体积和深度而变化,因此非常困难。 我们训练用规范的方法开展实验,深化更慢的网络。 最近的研究表明,规范一派可以加速RNNs训练的融合,但在提高一般化错误方面不理想。

对此,找到RNN用的深度网络,根据大规模数据集,规范一派的变色力可以提高一般化错误,加快速度。 反复频繁出现的层可以构筑为,在层被转印的地方,t从先行层的转印被牵引而计算出来,同时t从先行层被转印。 图2 :根据两种模式的训练曲线,有接受BN(BatchNorm )训练的,也有未接受BN(BatchNorm )训练的。

凯旋门国际平台

我们可以在9-7网络线上看到更大的分割距离。 这个训练线一共是9条,7条是双向RNNs模式。 5-1网线的差别更小,5条中只有1条是双向RNN。

我们从训练的最初阶段开始就有所区别,由于3.2份中提到的SortaGrad的授课方法,因此无法随着曲线的变化进行预测。 如(Laurent et al .2015 )中所提到的,使用BatchNorm的反复操作者的执行有两种方法。 大自然之所以延伸,是为了按非线性加入BatchNorm切换——B(()。

在这种情况下,平均值和方差的统计信息将累积在minibatch的单个时间步中。 我们找到这个技术也没有给优化程度带来明显的提高。 另一个(序列智能正常化)是正常化批量处理横向联系。

周期性计算的是针对每个隐藏单元在minibatch中计算最大项目序列长度和所有项目的平均值和方差的统计资料信息的公式。 图2显示了浅网络比智能序列正常化融合更慢。 表1显示,从智能序列正常化的性能提高随着网络深度的减少,与深网络有12%的性能差。 我们记忆了训练过程中收集到的神经元平均值和方差的运营平均值,并将这些用于评价。

3.2 SortaGrad用于批量标准化,但与CTC一起训练可能会变得不稳定。 特别是初期阶段。

为了使训练更顺利,我们在训练课程(Bengio et al .2009; ZarembaSutskever,2014 )开展实验,加快训练,超过更好的一般化结果。 从训练开始阶段就用于浅网络(或步数多的RNNs模式)必须通过权重高的层传播结果和梯度,因此不会在训练初期结束。 除了变化梯度,CTC最终成为mRNA长句的可能性很小。

因为变化梯度不稳定。 这种仔细的观察引起学习战略课程、LUM学习战略。 我们的标题SortaGrad :我们把语言的长度作为玩耍性的注意,先从短语开始训练。 具体来说,在最初的训练时期,集中于重复minibatches,不会在minibatch中逐渐缩短句子的长度。

训练的第一个时期随机重复minibatches。 表1显示了SortaGrad的训练成本和不使用的训练成本,是9个模式层的7个循环层。 SortaGrad提高了训练的稳定性,在网络上没有BatchNorm的状态下特别明显,因为这些在数值上不太平稳。 3.2RNNs和GRUs的比较迄今为止使用的模型是RNNs模型,方程3 ReLU转录模型。

更简单的隐藏单位,例如长短期记忆(LSTM )单位和the Gated Recurrent Units(GRU )单位已经被证明对类似的任务非常有效。 我们对GRUs进行了实地调查,小数据集实验中指出的GRU和LSTM可以用完全相同数量的参数超过类似的精度,因为GRUs的运营更慢,错误更少。

无论是GRU模式还是RNN模式,都从BatchNorm中获得收益,在深度网络中结果良好。 表中最后的2列1显示了在相同数量的参数和深度网络中,GRU模式比WER构筑更好的结果。 3.4卷积频率的实时卷积经常用于语音识别,为了有效地实时进行同样的翻译而模型化为星型长句。 的EF作为星形长话声ciently模型时空旋转不变性。

如果试图通过扬声器的变异对频谱分散进行建模,则更大型的连接网络模型会变得更正确。 我们以新加入的一三层卷积展开考试。 这些都是时间和频率的域(2D )和时间上唯一的域(1D )。

两种情况都用于“完全相同”的卷积。 在某些情况下,如果可以增加输入的规模,则在任何领域都注册一步(二次采样)。 图3 :报告了两句文本中的卷积结构两个数据集的结果,从CHIME 2015年发展的数据集中随机抽取了2048句发展集(“常规开发”)和2048句比较吵的数据集(“吵闹开发”)。

发现1D卷积的多层效果不显着。 2D卷积可以很小地提高噪声数据的结果,但对长时间的数据没有什么帮助。 从一维卷积一层到二维卷积三层的WER模式相对于噪声数据集提高了23.9%。

3.5主动卷积和单向模式双向RNN模型不能从用户追溯到录音过程,因此挑战在互联网上的运用,降低延迟的设定。 但是,只有循环行驶模型比同类双向模型劣化,用于几个将来的结构对良好的表现很重要。

可能的解决办法之一是推迟系统发射显示单位。 如果上下文很多,我们发现很难把这种不道德建立在我们的模型上。 创建单向模式不会犯规。

我们开发了同样的层。 我们如图3右图所示调用延迟卷积。 这一层自学,试图牵引各自的转录神经元,以控制我们将来需要的文本数量。

延迟层由参数矩阵要求,与前一层神经元的数量一致。 为了复制到时间步数t,将延迟卷积放置在所有周期层上的公式如下所示。

在延迟卷积下,制造更好的粒子,我们可以追溯到所有的计算。 图3:WER卷积层的区别非常简单。 无论哪种情况,卷积踵7发作层和1几乎相连。

对于2D卷积的第一维是频率和第二维是时间。 每个型号都与BatchNorm、SortaGrad进行培训,享受35M的参数。 3.6普通话适应环境为了把传统的语音识别流水线变更成其他语言,一般需要一定数量的最重要的语言登记研究开发。 例如,它经常是手工设计的发音模型。

我们也有可能要具体特定语言的发音特性,比如普通话的声调。 我们的端到端系统需要预测文字,所以可以省去一些步骤。

由此,可以慢慢构建从终端到终端的中文语音识别系统(中文汉字的输入是上述几种方法,不需要太迁移)。 我们对网络结构的变化基于中国汉字的特征。 网络输入的概率约为6000个字符,中英语mRNA很少见,因此也包括罗马字。 我们在评价时间整理了词汇错误。

如果输出的文字不进入这一套。 这不是大问题。 因为我们的测试集远远超过了词汇文字。

我们使用的文字水平以中文为语言模型。 因为语言在文本中一般经常被分割。 6.2部分展示了我们的中文语音模式和英语语音模式一样有结构改进,同时把一种语言转换成另一种语言获得了关于建模科学的知识。

4 .系统优化我们的网络有数千万个参数,一个训练实验涉及数十个单精度exaFLOPs。 我们为了评价数据和模型假设能力各不相同的训练速度,我们建立了基于高性能计算设施(HPC )高度优化的训练体系。 许多框架在深度网络中由于并行设备而不存在,但我们发现处理能力经常受到未优化的路径的阻碍,指出这些干扰依然是理所当然的。

因此,我们着重于优化训练的路径。 具体地说,为了关闭MPI建立了自定义的All-Reduce代码,跨越GPU的多个节点总结梯度,为GPU的缓慢构建开发CTC,用于自定义的内存分配器。

无论如何,这些技术都需要在每个节点上将理论峰值性能值保持在45%。 我们的训练由多个GPU生产,工作分阶段与SGD实时,每个GPU用于本地拷贝到达现在的Minibatch,然后与其他GPU交换相互计算的梯度。

我们偏向于实时SGD。 这是可以重复生产的,可以增进找到和维护的前进。 但是,在此设置中,GPU必须每次都立即重复通信,以免浪费计算周期(适用于“仅增加”操作者)。 迄今为止的工作一直用于异步改版以减轻这个问题。

无视。 我们将重点放在优化All-Reduce操作员上,加快构建4X-21X,利用技术为特定的网络工作增加CPU-GPU通信。 为了在某种程度上提高整体计算,NVIDIA被用于来自Nervana系统的高级优化的核心,NVIDIA被用作深度自学。

为了减少GPU和CPU之间的实时次数,我发现自定义内存分配例程在某种程度上对优化性能很重要。 还发现CTC成本计算占了运行时间的一个显着部分。

由于不存在高度优化的CTC代码,我们开发了缓慢的GPU执行方法,使总训练时间增加了10-20%。 5 .训练数据大规模深度自学系统需要非常丰富的标签训练数据。 为了训练我们的英语模型,我们包括11940小时800万显示的发言,普通话系统包括9400小时1100万显示的发言声音。 5.1训练集结构英语和普通话的一些数据集是指喧闹的音频剪辑的原始数据而建立的。

为了将语音段分成几秒钟长的段,根据mRNA拷贝进行了校准。 对等效音频mRNA对(x,y )的最可能校准是这是基本的维特比编辑,被计算为在RNN模型培养CTC中发现。 由于CTC损失函数集和所有校准,因此无法确保校准的正确性。 但是,该方法发现在使用双向RNN时可以进行正确的定位。

为了过滤质量良好的录音,起始材料CTC成本、起始材料CTC成本基于系列长度,CTC成本基于录音长度标准化,是句子长度和mRNA长度的比率、mRNA中的单词数和字符数。 我们收集源标签来制作这个数据集。 关于英语数据集,过滤器管可以将WER从17%增加到5%,同时找到了可以持有50%以上的例子。

凯旋门国际平台首页

此外,通过在每个阶段动态加上固有噪声的0dB到30dB之间的SNR来增强数据集。 5.2用图形数据WER减少标记训练数据集的效果如表3所示。 这些都集中在训练前从数据中随机取样。

对于每个数据集,模型训练到20个阶段,不会早期因错误而暂停,而是弯曲开发的集以避免过多的数值。 训练集中减少了10个要素,WER不会上升到40%。 我们还关注wer (接近60 % )的常规和吵闹的数据集之间的差别。 这意味着更好的数据在某种程度上也适合这两种情况。

表3 :英语WER在普通和喧闹的发展集中减少训练集。 模式为9层(2层为2D卷积和7层周期),具有68M的参数。

6 .结果:为了评价我们的语音系统在现实世界中的适用性,我们根据大量的测试集展开了评价。 我们用于多个公开发表可利用的标准和一些测试集的内部收集。 所有模式都经过20个阶段的训练,这些阶段如第5节所述,被用作整个英语或整个中文的数据集。 我们和Nesterov动力一起用于随机梯度上升,minibatch有512句。

如果坡度范围达到400个阈值,则新调整为400。 自由选择培训期,从继续运行最坏的模型集开始评估。 在每个阶段都有1.2的持续要素的情况下,自学亲率是为了从[ 110-4,610-4 ]中自由选择,得到结论更慢的子集和打磨。

6.1英语最差的英语模型有2层2D卷积,凸是3层无指向性的周期层,每一层都有2560GRU,接着是卷积层期待层=80,由BatchNorm和SortaGrad训练。 我们的模型在测试中集中在适应环境所有语音的条件上。 语言模型的解码参数一次保存了开发设置。

我们报告了一些用于系统和人类正确评价的测试集的结果。 我们告诉工作人员,从亚马逊Mechanical Turk获取的人类显示了水平。 大众不专业,训练有素的mRNA员是正确的。

例如,(李普曼,1997 )人类的摘录在WSJ-Eval92集中1%以上的WER相似,在被追加奖励的情况下,获得较低的WER,是自动错字动机和拼写修正。 我们使用了无报酬机制和自动修正。

为了有效竞争的“ASR向导- of-oz”,我们以胜利为目标。 两名随机工人摘录。 表4 :系统和人类用WER对比各自的音频剪辑,平均值约显示5秒的幸运。

然后,我们取的这两个mRNA教我们可以进行最后的WER计算。 很多工人在美国,被允许多次收看音频剪辑,mRNA的一次平均值需要27秒。

手动mRNA的结果展开比较,以现有事实为基础生成了WER估计。 现在的现场mRNA明显有几个标签误差,大部分集合都超过了1%。

6.1.1标杆结果表明,具有低信噪比的读者演说可以说是大词汇倒数语音识别的最简单任务。 我们系统的标准是两套测试集,一套是载入新闻文章的华尔街日报(WSJ )语料库,另一套是音频图书LibriSpeech语料库。 从表4可以看出,每四个测试集,三个系统比人类好。 我们还用于VoxForge(http://www.voxforge.org )测试了我们系统对各种口音的适应性。

这个测试组包含很多不同口音的人的朗读语音。 我们把这些口音分为四大类:美国、加拿大、印度、Commonwealth5和European6。 我们从VoxForge数据组每1024个例子构建了一个测试集作为口音组,共计制作了4096个例子。

人的水平表明,除了印度口音,明显低于我们所有的系统。 最后,用于从最近完成的第三站试验台CHiME测试喧闹演说时我们的表现。

这个数据集中包含的词语意味着WSJ测试集中在收集上,WSJ中包含的词语在实际环境中收集,施加了人为噪声。 CHiME使用的所有6条地下通道都可以得到显着的性能改良。

凯旋门国际平台首页

我们把我们所有的模式都用在单一频道上。 因为获取多通道音频还不广泛。 如果数据来自现实吵闹的环境而不是人工合成,我们的系统和人类水平的性能之间的差距很小。 6.2在普通话表5中,我们将一些结构士官学校的中国普通话声音作为研究开发的2000句声音和测试集1882句噪音声音的一套。

这个开发工具包也用于调整解码参数。 深入的模型2D卷积和BatchNorm比浅层RNN 48%高。 表5 :不同RNN结构的比较。

研究开发和测试集的内部语料库。 每个:表的型号都有8000万左右的参数。 表6 :根据两个随机自由选择的测试集测试人和系统。

第一集有100例,有5个中国人表示。 二是250例显示一人的摘录。

表6显示了我们最坏的中国普通话语音系统mRNA最后的语音检索比典型的中国人和委员会的五个中国人工作得更好。 7 .引进双向模型的即时mRNA设计不合适: RNN有几个双向层,所以抄写员的话必须用整体听的方法提示给RNN。

另外,由于我们用于长波波束搜索,因此波束搜索可能很便宜。 为了减少部署的可扩展性,获得延迟少的mRNA,构建了表示RNN用于宣传这些发货的批处理调度,在这些发货时用户收集数据,促使发货。 有了这个计划,可以减少贸易批量,提高效率,减少延期。

我们用于强大的工厂出货方案,而且下一个方案不会强力处置所有的工厂出货。 上次工厂出货完成后,无论怎么工作都要在这一点上计划。 该调度算法使效率和延期均衡,建立比较小的动态批量规模,每出厂约降低10个样本,其中中间批量与服务器阻抗成正比。

表7 :从延迟生产(毫秒) VS阻抗表7来看,我们的系统超过了44毫秒的延迟时间,而第98的延迟时间在70毫秒内汇合了10次。 此服务器用于在一台NVIDIA Quadro K1200 GPU上评估RNN。 按照设计,当服务器阻抗迅速增加时,批处理调度轮将工作变更为更大的工厂,保持较低的延迟。

戴尔的部署系统评估是半精度计算,具有不依赖于RNNs的精度,但提高了效率。 我们写出了我们自己的16比特矩阵乘法程序完成了这个任务,大大提高了比较小的出厂吞吐量。 继续执行所述波束搜索过程还包括在所述n-gram语言模型中重复查询,其中大部分被转换为不从存储器加载。

为了增加这些查询的成本,我们使用了只考虑最大数目的字符积累概率最小为p的启发式方法。 事实上,我发现p=0.99很有效,而且搜索范围最多允许40个字符。 由此,可以缓和从150倍的合计普通话语言模型中的检索时间,可以忽略对CER (比较0.1-0.3% )的影响。

7.1深度语音的生产环境深度语音已经应用于为用户配套先进设备的语音生产线。 我们发现了一些重要的挑战从基层到基层的深刻自学方法,比如像我们一样有影响。 首先,我发现即使适度的特定应用程序的训练数据很重要,也有大量的语音数据被用作训练。 例如,我们发现,如果需要训练10000小时以上的普通话演说,为了时间数据只能提高500小时的应用程序性能。

在某种程度上,应用于特定的网络语言模型对构建最低精度是最重要的,我们利用了现有强大的n-gram模型和我们的深层语音系统。 最后,我们的系统是需要输入普遍标注的训练数据的文字,因此注意到各应用程序mRNA需要后处理展开处理(数字格式等)。

因此,我们的模型已经分解了很多复杂性、更好的灵活性,但对于从末端到末端深度的自学方法的应用有必要为了意识进行更多的研究。 8 .结论从终端到终端的深度自学提出了明显令人兴奋的前景,数据和计算的减少大大提高了语音识别系统。

由于这个方法高度标准化,我们已经发现,它很快就能适用于新的语言。 为两种非常不同的语言建立高性能的识别仪器、英语和普通话,不拒绝关于该语言的专业知识。 最后发现,该方式在GPU服务器和用户的催促下有效执行,用户获得了从终端到终端的深度自学技术。 为了构建这些结果,我们已经寻找了各种网络架构,找到了一些有效的技术:通过SortaGrad和工厂规范化(Batch Normalization )和前瞻卷积单向模式来加强优化。

这样的探索是很好的优化,高性能的计算系统,我们在大数据集中只需几天就训练出全面的模型。 总体上,我们确信我们的结果确认和从比较末端到末端的深度自学方法被用作语音识别的价值。 我们相信这些技术今后不会扩展。

原创文章,发布许可禁令刊登。 以下,听取刊登的心得。。

本文来源:凯旋门国际平台-www.worldfootgolf.com