阿里「殺手锏」級(jí)語音識(shí)別模型來了！推理效率較傳統(tǒng)模型提升10倍

發(fā)布時(shí)間：2023-01-17 文章來源：本站瀏覽次數(shù)：2144

阿里達(dá)摩院，又搞事兒了。

這兩天，它們發(fā)布了一個(gè)全新的語音辨認(rèn)模型：

Paraformer。

開發(fā)人員直抒己見：這是咱們“殺手锏”級(jí)的作品。

——不只辨認(rèn)精確率“屠榜”幾大威望數(shù)據(jù)集，一路SOTA，推理功率上比較傳統(tǒng)模型，也高可提高10倍。

值得一提的是，Paraformer剛宣布就現(xiàn)已開源了。

語音輸入法、智能客服、車載導(dǎo)航、會(huì)議紀(jì)要等場(chǎng)景，它都能夠hold住。

怎么做到的？

Paraformer：從自回歸到非自回歸

咱們知道語音一直是人機(jī)交互重要研究領(lǐng)域。

而當(dāng)時(shí)語音辨認(rèn)根底結(jié)構(gòu)已從初雜亂的混合語音辨認(rèn)系統(tǒng)，演變?yōu)楦咝П憬莸亩说蕉苏Z音辨認(rèn)系統(tǒng)。

其中具代表性的模型當(dāng)屬自回歸端到端模型Transformer，它能夠在辨認(rèn)過程中需逐一生成方針文字，實(shí)現(xiàn)了較高精確率。

不過Transformer核算并行度低，無法高效結(jié)合GPU進(jìn)行推理。

針對(duì)該問題，學(xué)術(shù)界近年曾提出并行輸出方針文字的非自回歸模型。

可是這種模型也存在著建模難度和核算雜亂度高，精確率有待提高的問題。

達(dá)摩院本次推出的Paraformer，初次在工業(yè)級(jí)運(yùn)用層面解決了端到端辨認(rèn)作用與功率統(tǒng)籌的難題。

它歸于單輪非自回歸模型。

對(duì)于這一類模型，現(xiàn)有作業(yè)往往聚焦于如何愈加精確地猜測(cè)方針文字個(gè)數(shù)，如較為典型的Mask CTC，選用CTC猜測(cè)輸出文字個(gè)數(shù)。

但考慮到現(xiàn)實(shí)運(yùn)用中，語速、口音、靜音以及噪聲等因素的影響，如何精確的猜測(cè)方針文字個(gè)數(shù)以及抽取方針文字對(duì)應(yīng)的聲學(xué)隱變量仍然是一個(gè)比較大的應(yīng)戰(zhàn)。

另外一方面，經(jīng)過比照自回歸模型與單輪非自回歸模型在工業(yè)大數(shù)據(jù)上的過錯(cuò)類型（如下圖所示，AR與vanilla NAR），我們發(fā)現(xiàn)比較于自回歸模型，非自回歸模型在猜測(cè)方針文字個(gè)數(shù)（插入過錯(cuò)+刪除過錯(cuò)）方面差距較小，可是替換過錯(cuò)顯著的添加。

阿里達(dá)摩院以為這是因?yàn)閱屋喎亲曰貧w模型中條件獨(dú)立假設(shè)導(dǎo)致的語義信息丟掉。與此一起，現(xiàn)在非自回歸模型主要停留在學(xué)術(shù)驗(yàn)證階段，還沒有工業(yè)大數(shù)據(jù)上的相關(guān)實(shí)驗(yàn)與定論。

Paraformer是如何做的呢？

針對(duì)第一個(gè)問題，阿里達(dá)摩院選用一個(gè)猜測(cè)器（Predictor）來猜測(cè)文字個(gè)數(shù)并經(jīng)過Continuous integrate-and-fire (CIF)機(jī)制來抽取文字對(duì)應(yīng)的聲學(xué)隱變量。

針對(duì)第二個(gè)問題，受啟發(fā)于機(jī)器翻譯領(lǐng)域中的Glancing language model（GLM），他們規(guī)劃了一個(gè)根據(jù)GLM的 Sampler模塊來增強(qiáng)模型對(duì)上下文語義的建模。

除此之外，團(tuán)隊(duì)還規(guī)劃了一種生成負(fù)樣本策略來引進(jìn)MWER區(qū)分性練習(xí)。

終究，Paraformer由Encoder、Predictor、Sampler、Decoder與Loss function五部分組成。

核心點(diǎn)主要包含以下幾點(diǎn)：

Predictor模塊：根據(jù)CIF 的Predictor 猜測(cè)語音中方針文字個(gè)數(shù)以及抽取方針文字對(duì)應(yīng)的聲學(xué)特征向量；
Sampler：經(jīng)過采樣，將聲學(xué)特征向量與方針文字向量變換成含有語義信息的特征向量，合作雙向的Decoder來增強(qiáng)模型對(duì)于上下文的建模才能；
根據(jù)負(fù)樣本采樣的MWER練習(xí)原則。

作用SOTA，推理功率高提10倍

終究，在學(xué)術(shù)界常用的中文辨認(rèn)評(píng)測(cè)使命AISHELL-1、AISHELL-2及WenetSpeech等測(cè)驗(yàn)集上， Paraformer-large模型均獲得了優(yōu)作用。

在AISHELL-1上，Paraformer在現(xiàn)在揭露宣布論文中，為功能（辨認(rèn)作用&核算雜亂度）優(yōu)的非自回歸模型，且Paraformer-large模型的辨認(rèn)精確率遠(yuǎn)遠(yuǎn)超于現(xiàn)在揭露宣布論文中的結(jié)果（dev/test：1.75/1.95）。

在專業(yè)的第三方全網(wǎng)公共云中文語音辨認(rèn)評(píng)測(cè)SpeechIO TIOBE白盒測(cè)驗(yàn)中，Paraformer-large辨認(rèn)精確率超越98%，是現(xiàn)在揭露測(cè)評(píng)中精確率高的中文語音辨認(rèn)模型。

合作GPU推理，不同版本的Paraformer可將推理功率提高5～10倍。

一起，Paraformer運(yùn)用了6倍下采樣的低幀率建模計(jì)劃，可將核算量下降近6倍，支持大模型的高效推理。

終的終，歡迎各位開發(fā)者下載Paraformer并留言反應(yīng)模型運(yùn)用感受~

量子位將贈(zèng)送3張阿里研發(fā)的會(huì)議紀(jì)要產(chǎn)品“聽悟”特邀用戶年度權(quán)益卡，每天可運(yùn)用離線語音/視頻轉(zhuǎn)寫10小時(shí)+實(shí)時(shí)轉(zhuǎn)寫8小時(shí)，高價(jià)值超萬元！

上一條：騰訊提早退租朗科大廈是因...

下一條：支付寶現(xiàn)已支撐綁定境外銀...

阿里「殺手锏」級(jí)語音識(shí)別模型來了！推理效率較傳統(tǒng)模型提升10倍

Paraformer：從自回歸到非自回歸

作用SOTA，推理功率高提10倍

作用SOTA，推理功率高提10倍