Uploads%2farticles%2f13649%2fwechatimg2277

百度大腦秀語(yǔ)音新進(jìn)展:識(shí)別率提升 30%沪编、推 3 款模組、多項(xiàng)語(yǔ)音能力全面升級(jí)

全棧語(yǔ)音賽道秀肌肉年扩!

11 月 28 日厨幻,百度大腦發(fā)布了一項(xiàng)新的智能語(yǔ)音交互新技術(shù)——基于復(fù)數(shù) CNN 網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)和語(yǔ)音識(shí)別一體化端到端建模技術(shù)相嵌,該方法拋棄了數(shù)字信號(hào)處理學(xué)科和語(yǔ)音識(shí)別學(xué)科的各種先驗(yàn)假設(shè)腿时,消除學(xué)科間壁壘,直接端到端進(jìn)行一體化建模饭宾。

目前批糟,該技術(shù)已經(jīng)被集成到百度最新發(fā)布的百度鴻鵠芯片中,且相較于傳統(tǒng)基于數(shù)字信號(hào)處理的麥克陣列算法看铆,錯(cuò)誤率降低超過(guò) 30%徽鼎。

該模型底部以復(fù)數(shù) CNN 為核心,利用復(fù)數(shù) CNN 網(wǎng)絡(luò)挖掘生理信號(hào)本質(zhì)特征的特點(diǎn)弹惦,采用復(fù)數(shù) CNN, 復(fù)數(shù)全連接層以及 CNN 等多層網(wǎng)絡(luò)否淤,直接對(duì)原始的多通道語(yǔ)音信號(hào)進(jìn)行多尺度多層次的信息抽取,期間充分挖掘頻帶之間的關(guān)聯(lián)耦合信息棠隐。在保留原始特征相位信息的前提下石抡,同時(shí)實(shí)現(xiàn)了前端聲源定位、波束形成和增強(qiáng)特征提取宵荒。該模型底部 CNN 抽象出來(lái)的特征汁雷,直接送入百度獨(dú)有的端到端的流式多級(jí)的截?cái)嘧⒁饬δP椭校瑥亩鴮?shí)現(xiàn)了從原始多路麥克信號(hào)到識(shí)別目標(biāo)文字的端到端一體化建模报咳。整個(gè)網(wǎng)絡(luò)的優(yōu)化準(zhǔn)則完全依賴于語(yǔ)音識(shí)別網(wǎng)絡(luò)的優(yōu)化準(zhǔn)則來(lái)做侠讯,完全以識(shí)別率提升為目標(biāo)來(lái)做模型參數(shù)調(diào)優(yōu)。

針對(duì)智能硬件設(shè)備暑刃,百度大腦還發(fā)布了基于百度鴻鵠語(yǔ)音芯片硬件產(chǎn)品:芯片模組 DSP 芯片+Flash厢漩、Android 開發(fā)板 DSP芯片+ RK3399、RTOS 開發(fā)板 DSP芯片+ESP32岩臣,預(yù)計(jì)將在明年初推出溜嗜。

另外,針對(duì)細(xì)分場(chǎng)景架谎,還推出了智能家居炸宵、智能車載、智能 IoT 設(shè)備 3 大端到端軟硬一體遠(yuǎn)場(chǎng)語(yǔ)音交互場(chǎng)景解決方案谷扣,具備交互效果優(yōu)異土全、軟硬一體快速應(yīng)用、廣泛兼容集成門檻低等優(yōu)點(diǎn)会涎。

同時(shí)裹匙,在語(yǔ)音識(shí)別領(lǐng)域,全面升級(jí)短語(yǔ)音識(shí)別末秃、實(shí)時(shí)語(yǔ)音識(shí)別能力概页,發(fā)布音頻文件轉(zhuǎn)寫能力,升級(jí)可零代碼提升業(yè)務(wù)術(shù)語(yǔ)識(shí)別率的語(yǔ)音自訓(xùn)練平臺(tái)练慕,以及呼叫中心語(yǔ)音解決方案惰匙;在語(yǔ)音合成方面技掏,全新發(fā)布 6 個(gè)在線語(yǔ)音合成精品音庫(kù)和 5 個(gè)離線語(yǔ)音合成精品音庫(kù)。豐富的語(yǔ)音能力项鬼,助力智能硬件零截、互聯(lián)網(wǎng)、呼叫中心等領(lǐng)域智能化升級(jí)秃臣。

目前,百度大腦通過(guò) AI 開放平臺(tái)已開放 228 項(xiàng)技術(shù)能力哪工,接入開發(fā)者超過(guò) 150萬(wàn)奥此。此次會(huì)上,還公布了語(yǔ)音技術(shù)日均調(diào)用量超 100 億次數(shù)據(jù)雁比,國(guó)內(nèi)第一稚虎。?

>>
Back to top btn
亚洲AV无码国产精品网址,久久亚洲AV成人出白浆无码国产,日韩AV美乳欧美,永久免费AV无码软件app下载