DuerOS 獲高通「芯片級」支持蝗羊,上億部手機將擁有對話能力
語智科技將發(fā)布 FFASR 開發(fā)者平臺伊约,助力 IoT 設(shè)備商實現(xiàn)無需麥克風陣列的遠場語音識別
對于智能硬件廠商來說,使用麥克風陣列的語音識別方案的 BOM 成本問題孕蝉,以及沒有多余的空間和合適的位置留給麥克風陣列的問題屡律,都將可以被解決。
對于智能硬件廠商來說超埋,使用麥克風陣列的語音識別方案,意味著額外的物料成本及開發(fā)成本佳鳖,而且對于電視這樣豎向霍殴、扁平的硬件以及某些小型硬件來說,并沒有多余的空間和合適的位置留給麥克風陣列系吩。
剛剛完成 2000 萬元 Pre-A 輪融資的北京語智科技公司来庭,公布了其遠場語音識別引擎 FFASR 開發(fā)者平臺(FFASR, Far-Field Automatic Speech Recognition),旨在大幅降低設(shè)備實現(xiàn)語音交互的入場門檻穿挨,使各類 IoT 設(shè)備擺脫目前實現(xiàn)遠場語音識別所需要的復(fù)雜麥克風陣列的局限月弛,降低「AI+IoT」的入場門檻,縮減使用麥克風陣列的 BOM 成本及開發(fā)成本科盛,從而推進語音交互進駐各領(lǐng)域的進程帽衙。
語智科技最近一次內(nèi)部測試數(shù)據(jù)顯示,其 FFASR 遠場識別引擎的性能指標領(lǐng)先業(yè)內(nèi) 15% 以上贞绵。
值得一提的是厉萝,語智科技致力于語音交互與智能家居的深度整合,其語音全屋智能解決方案「語家 HomeAI」已落地于北京中關(guān)村 SOHO榨崩,采用分布式拾音技術(shù)谴垫,與家庭設(shè)備進行底層聯(lián)動,旨在實現(xiàn)語音 AI 對家庭設(shè)備的控制蜡饵。
語智科技的創(chuàng)始團隊有著光鮮的履歷弹渔。創(chuàng)始人馮一畢業(yè)于北京大學計算機系,創(chuàng)業(yè)前在 Google 總部負責 Google Assistant 的多回合對話系統(tǒng)溯祸,曾經(jīng)幫助 NASA 設(shè)計國際空間站旋轉(zhuǎn)系統(tǒng)肢专,將太陽能發(fā)電量提高了約 1.5%。語智科技 CTO 徐源盛研究生畢業(yè)于北京大學焦辅,從事機器學習相關(guān)的研究博杖,多次在國際會議發(fā)表論文,并多次獲得 ACM 國際大學生程序設(shè)計競賽金牌筷登。深度學習總監(jiān)杜聰本科就讀于北京大學計算機系剃根,在使用深度學習進行喚醒和降噪工作上有研究和經(jīng)驗。聲學開發(fā)總監(jiān)黃智超為北京大學聲學房向碩士前方,研究領(lǐng)域為麥克風陣列和降噪技術(shù)狈醉。硬件開發(fā)總監(jiān)聶旭輝為北京大學碩士廉油,研究方向為物聯(lián)網(wǎng)和無線醫(yī)療,多篇論文被 EI 收錄苗傅,并擁有多項專利抒线。
語智科技團隊希望通過專門為遠場語音識別開發(fā)一款引擎,來讓眾多體積小渣慕、結(jié)構(gòu)扁平的智能產(chǎn)品嘶炭,在不適合用麥克風陣列的情況下也能有被用戶「聲控」的解決方案。
創(chuàng)始人馮一坦言逊桦,團隊初創(chuàng)時并沒有把主要的開發(fā)精力傾斜在遠場語音識別眨猎,而是希望尋找到一個性能好、成本適合的遠場聲學處理的解決方案强经,用來支持其他的開發(fā)項目睡陪,因為沒有找到真正滿意的方案,所以自己做起了遠場語音識別方案夕凝。
語智科技在 FFASR 遠場語識別引擎上實現(xiàn)這一性能的提升宝穗,是基于語智科技對遠場語音識別的技術(shù)鏈條上每個環(huán)節(jié)有著學術(shù)積累和深刻理解,以及在遠場降噪码秉、Deep Learning逮矛、聲學模型、語言模型等多個領(lǐng)域擁有的技術(shù)積累和整合能力转砖。
語智科技首先對聲學降噪需要解決的三個干擾問題——噪聲须鼎、混響、干涉進行了數(shù)學建模府蔗,并設(shè)計更深層的神經(jīng)網(wǎng)絡(luò)晋控,通過算法對干擾進行聲學降噪。
為了能夠同時處理前端聲學降噪和語音識別姓赤,語智科技 FFASR 算法將 CNN(卷積神經(jīng)網(wǎng)絡(luò))赡译、RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))、DNN(深度神經(jīng)網(wǎng)絡(luò))進行深度整合不铆,搭建了更復(fù)雜的深度學習網(wǎng)絡(luò)蝌焚,并將網(wǎng)絡(luò)分成很多部分,用以處理不同的任務(wù)誓斥。而這樣的神經(jīng)網(wǎng)絡(luò)還需要更適配和先進的訓練平臺只洒,語智科技獨立設(shè)計了訓練平臺,替代通常使用的 Kaldi ASR 進行網(wǎng)絡(luò)結(jié)構(gòu)訓練劳坑。
如今毕谴,語智科技即將把自己的遠場語音識別引擎開放給開發(fā)者使用。IoT 廠商及開發(fā)者可登錄語智科技官網(wǎng)(近期開放)直接調(diào)用 FFASR API,接入語智科技 FFASR 遠場語音技術(shù)涝开。