角逐智能小家電藍海市場讨勤,AI 企業(yè)該做怎樣的技術(shù)儲備和戰(zhàn)略規(guī)劃丨WARE 2019
隨時喚醒語音助手诡挂,真不是一句話的事兒 | 深圳灣夜話
實時在線的低功耗語音喚醒,技術(shù)解析與應用前景腾仅,聽聽各路專家怎么說
近年來,在運動推励、車載鹤耍、商超、地鐵吹艇、公交等隨行場景惰蜜,我們看到了越來越多的設備增加了語音交互的功能昂拂。
應用場景的變化受神,對于語音喚醒的快速和靈活反應,以及功耗和算力格侯,甚至硬件設備本身的結(jié)構(gòu)設計鼻听,都提出了新的要求财著。
算法商、芯片商撑碴、設備商撑教、甚至云服務提供商,都給出了不同的解決方案醉拓,但共同的目標都是讓設備的功耗更低伟姐,讓語音交互的體驗更好。
在第 122 期「深圳灣夜話」上亿卤,來自思必馳愤兵、QuickLogic、順豐科技排吴、步步高的嘉賓秆乳,分享了他們在低功耗語音喚醒方面的技術(shù)和應用。
算法商怎么做街氢?
在算法層面扯键,思必馳提供了從 DSP 到 AP 的一整套集成方案,包括雙麥定向波束阳仔、命令詞檢測忧陪、骨傳導特征檢測等多項技術(shù)方案,實現(xiàn)設備從低功耗喚醒近范、到喚醒驗證嘶摊、再到聲紋識別的多級喚醒。
通常情況下评矩,語音喚醒的算法運行在 DSP 中叶堆,因語音交互而產(chǎn)生的數(shù)據(jù)也在 DSP 上緩存,通過獨立的麥克風做喚醒輸入斥杜,經(jīng)過數(shù)據(jù)交換虱颗,將緩存數(shù)據(jù)輸送到 AP 中,再觸發(fā)二級喚醒和聲紋驗證蔗喂。
而在設備處于待機或休眠的超低功耗狀態(tài)忘渔,或者當設備在播放音樂時,就會自動切換到「闖入模式」缰儿,語音數(shù)據(jù)也會直接傳輸給 AP 芯片畦粮,觸發(fā)二級喚醒和聲紋驗證,實現(xiàn)低功耗算法中的回聲消除(AEC)。
基于以上工作流程宣赔,要做到「實時在線」的語音喚醒预麸,在算法的基礎上,還需要在麥克風陣列儒将、定向波束吏祸、命令詞檢測、骨傳導特征檢測钩蚊、藍牙傳輸協(xié)議贡翘、以及云端多個方面進行優(yōu)化。
在麥克風陣列的聲學結(jié)構(gòu)設計方面砰逻,有很多「Know-How」學問床估。比如市面上常見的雙麥克風結(jié)構(gòu)設計,需要做線性分布和水平放置诱渤,最佳間距為 30mm丐巫,聲音流向要與麥克風垂直,麥克風拾音孔要水平朝上且處于同一平面勺美,收音腔設計除了單孔型還有網(wǎng)狀自由場型递胧,隔音減震設計也有講究,等等赡茸。思必馳的工程師會協(xié)助客戶完成從麥克風選型到麥克風參數(shù)評估的方方面面缎脾。
設備有了「聽清」的能力后,就要解決命令詞也就是「聽懂」的問題占卧。拿藍牙耳機產(chǎn)品來舉例遗菠,類似播放/暫停音樂、撥打/掛斷電話华蜒、支付寶掃一掃這樣的操控命令辙纬,甚至一些品牌命令詞,都可以直接儲存到設備上叭喜,在設備上直接完成調(diào)用贺拣。
最后在協(xié)議層,思必馳也提供了 SMA 藍牙配件接入?yún)f(xié)議捂蕴,賦予思必馳全鏈路語音交互技術(shù)譬涡,通過曉聽 APP,實現(xiàn)控制家電啥辨、場景識別等個性化功能涡匀。
芯片商怎么做?
隨著越來越多的 TWS 耳機增加了語音交互功能溉知,語音喚醒的方式也從傳統(tǒng)的觸控喚醒陨瘩,逐漸過渡到語音喚醒腊嗡。
交互方式的演進也對設備的交互能力有了新的要求,語音識別的準確性拾酝、語音助手的始終在線、以及用戶使用和佩戴狀態(tài)的智能識別卡者,都需要有更先進的技術(shù)支持蒿囤。
QuickLogic 在 4 年前就提出了 EOS S3 語音和傳感器處理平臺,目前也是世界上唯一提供超低功耗并集成了始終在線崇决、始終監(jiān)聽材诽、始終感知(Always On / Always listening + Sensor)處理能力的多核 SoC 解決方案。
它使用了分層式架構(gòu)恒傻,可以集成運動傳感导帝、加速傳感既穆、心率傳感、語音喚醒和降噪、室內(nèi)導航等傳感器和算法蜈彼,運行功耗相較于普通的 MCU 方案大大降低。
兩年前内边,QuickLogic EOS S3 語音和傳感器處理平臺就與亞馬遜 Alexa 實現(xiàn)了合作票灰,針對其雙麥降噪、近場喚醒的需求契吉,通過 S3 實現(xiàn) OPUS 壓縮算法跳仿,降低亞馬遜藍牙耳機所使用的高通 CSR867X 藍牙音頻芯片的運載負擔。
目前 S3 已與多個藍牙平臺實現(xiàn)了合作捐晶,共同提供驗證的方案菲语,幫助客戶產(chǎn)品快速上市。同時惑灵,QuickLogic 還開放軟件代碼山上、eFPGA,使軟硬件設計更加靈活英支。
為快遞小哥定制的藍牙耳機胶哲,語音喚醒怎么做?
在開場思必馳的分享中提到潭辈,低功耗語音喚醒的應用不僅在耳機鸯屿、手表、小家電等消費電子產(chǎn)品領(lǐng)域有著豐富的應用把敢,在物流配送寄摆、專車駕駛、餐飲服務等 toB 的垂直場景修赞,也有巨大的需求空間婶恼。
為了保障用戶隱私桑阶,同時幫助快遞小哥更安全、更高效的處理日常收派件工作勾邦,今年年初蚣录,順豐科技推出了「小豐」智能藍牙耳機,目前已在全國多個收派環(huán)境較復雜的區(qū)域開始投放使用眷篇。
產(chǎn)品搭載智能語音技術(shù)萎河,可以實現(xiàn)語音喚醒和操控,快遞小哥可結(jié)合順豐豐密運單通過語音指令呼叫用戶蕉饼,保障用戶隱私虐杯,此外,日常呼叫通訊錄聯(lián)系人 昧港、查單 擎椰、轉(zhuǎn)單等高頻操作,都可以由 8 步手動操作減為 1 步語音指令创肥,大大提升了工作效率达舒。
更多的功能和服務還包括,路徑規(guī)劃和語音導航叹侄、超速提醒休弃、實時同步用戶消息、實時播報系統(tǒng)消息 …等等針對具體應用場景和業(yè)務需求的功能圈膏。
順豐「小豐」也是思必馳「曉聽」FreeSpeech E1 的應用案例塔猾,該方案集成了雙麥定向增強與降噪、免提語音交互等多項技術(shù)稽坤,并可以實現(xiàn) 30KM/H 降風噪丈甸,始終在線功耗小于 2mA,以及 12 小時的連續(xù)高清通話尿褪。
具體到「小豐」耳機睦擂,則是基于主頻算力小的小型 NCU,思必馳提供了基于雙麥的 ANC 喚醒方案以及前端信號處理杖玲、低功耗喚醒等技術(shù)顿仇,將快捷命令詞納入喚醒詞中,既大大提高語音交互的效率摆马,又確保了低功耗臼闻。
為小朋友定制的教育平板,語音喚醒怎么做囤采?
除了耳機述呐、手表、小家電蕉毯,教育平板對語音喚醒的需求也在迅速攀升乓搬。以步步高教育平板為代表思犁,語音 AI 已經(jīng)逐漸成為旗艦標配。
步步高家教機 2019 年的旗艦產(chǎn)品 S5 同時具備了 AI 視覺和 AI 語音識別的能力进肯,相比一般的常見 AI 智能機器人和傳統(tǒng)的教育平板激蹲,步步高家教機 S5 的語音助手可以做到實時在線、語音喚醒江掩,并針對學習場景学辱,優(yōu)化了問答、聽寫的語音交互體驗频敛。產(chǎn)品一上市,就獲得了廣泛好評馅扣。
在語音方案選型之前斟赚,步步高的產(chǎn)品負責人對于需求做了全面的梳理:
需要有語音識別技術(shù)(ASR),對隨時接收的用戶語音輸入進行識別差油;
在 ASR 無法智能判斷用戶是否在和它對話拗军,從而亂響應的情況下,需要語音喚醒技術(shù)明確對話請求蓄喇,用簡短的喚醒詞減少喚醒識別時間发侵;
為延長待機時間,設備 AP 需要休眠妆偏,語音喚醒服務不能長期在 AP 中運行刃鳄,這就需要低功耗外掛芯片,需要能夠?qū)拘言~和識別句進行分拆钱骂,需要能夠過濾本機回聲叔锐。
具體到方案的規(guī)格,步步高需要一個能夠內(nèi)置低功耗語音喚醒算法的低功耗芯片见秽,它需要具備以下性能:
支持 One-Shot 即喚醒詞+指令一句連說愉烙,這就要求算法留出 3 秒左右的緩沖,而芯片留出 >96kb 的 SRAM 可用空間解取;
支持 AEC步责,并且 AEC 的 CLK 要與 AP 同源;
功耗 <5mW禀苦,保證續(xù)航時間需求蔓肯;
喚醒率 >98%,保證良好的喚醒體驗振乏,這里主要是童聲體驗省核;
誤喚醒要 <1次/24 小時,保證極低的打擾和插話昆码;
成本 <$1气忠。
在語音 AI 產(chǎn)品化的過程中邻储,步步高也經(jīng)歷了從模式識別到深度學習的轉(zhuǎn)變,通過不斷的采集和更新樣品數(shù)據(jù)旧噪,提升設備喚醒率吨娜。同時,針對在嘈雜環(huán)境喚醒率低淘钟、人聲場景的誤喚醒較高等問題宦赠,步步高采用了單麥的低功耗喚醒和雙麥的降噪方案,ASR 能力獲得 10~15% 的明顯改善米母。
目前勾扭,步步高還在探索新的優(yōu)化方向,包括多麥低功耗語音喚醒和聲紋铁瞒。在步步高看來妙色,多麥低功耗語音喚醒是必然趨勢,而聲紋要做好比較難慧耍。
夜話聊不完
在活動最后的深圳灣夜話的交流環(huán)節(jié)身辨,幾位嘉賓一起就算法、芯片芍碧、藍牙耳機等話題煌珊,展開了進一步的討論。這里我們精選了一些嘉賓的觀點泌豆,歡迎各位讀者留言參與討論定庵。
深圳灣:把算法做到芯片里,實現(xiàn)離在線的 AI踪危,越來越多的玩家在加入洗贰。思必馳深聰?shù)男酒c競品相比,優(yōu)勢是什么陨倡?
思必馳:思必馳團隊有400多名算法研發(fā)工程師敛滋,豐富的項目落地經(jīng)驗,以及為客戶做靈活高可用定制的能力兴革。
深圳灣:最近發(fā)布的亞馬遜 Echo Buds 采用的多芯片方案绎晃,而小米發(fā)布的 Air 2 采用的是單芯片方案。QuickLogic 的芯片集成了語音喚醒杂曲、外接傳感器算法的芯片庶艾,與高通等藍牙主控芯片搭配使用。單芯片和多芯片各自有哪些優(yōu)劣勢擎勘?
QuickLogic:單芯片是未來發(fā)展的趨勢咱揍。但在目前的狀況下,廠商對于性價比棚饵、功耗煤裙、傳感器功能的可拓展性掩完、是否能快速上市、以及未來的上升空間硼砰,考慮更多一些且蓬,QuickLogic 的方案可以滿足廠商這些方面的需求。
深圳灣:未來耳機的進化方向题翰,各位怎么來看恶阴?
步步高:體積小、功耗低豹障、語音喚醒冯事,是藍牙耳機的發(fā)展趨勢。
順豐科技:語音和圖像識別可以有一些互補血公,當用戶用語音提問時昵仅,設備可以通過顯示屏進行反饋,而不是一定要通過語音對話進行反饋坞笙。耳機只是一種交互介質(zhì)岩饼,可以與其他設備有更多的結(jié)合和聯(lián)動荚虚,從而讓用戶有更好的使用體驗薛夜。
QuickLogic:藍牙耳機與助聽器的結(jié)合,將會有更大的市場空間版述。
思必馳:藍牙耳機一定會朝著智能方向發(fā)展梯澜,而在眾多的玩家中,手機廠商做智能耳機會有更大的優(yōu)勢渴析。最近我們看到了亞馬遜晚伙、微軟等很多互聯(lián)網(wǎng)廠商紛紛推出智能耳機。我們預測俭茧,明年將會是智能耳機的爆發(fā)元年咆疗。
關(guān)于
深圳灣夜話是最早由深圳灣發(fā)起的社區(qū)分享活動。目前已經(jīng)進行至第 122 場母债,超過 400 位商業(yè)領(lǐng)袖午磁、產(chǎn)品達人、技術(shù)專家毡们、意見領(lǐng)袖做客活動并分享洞見迅皇,累計吸引了超過 10000 名創(chuàng)新創(chuàng)業(yè)者、尤其是智能硬件的行業(yè)從業(yè)者和愛好者參與線下活動衙熔。
很多人因為「深圳灣夜話」認識到深圳登颓,因為「深圳灣夜話」而與產(chǎn)業(yè)鏈上下游實現(xiàn)了連接,因為「深圳灣夜話」而獲得了啟發(fā)和鼓舞红氯。
4 年來框咙,我們一直用心經(jīng)營著這個「地標性」的活動咕痛,精選嘉賓、打磨主題扁耐、優(yōu)化活動體驗暇检,試圖每一個經(jīng)過我們設計的夜話,都能給讓各位收獲滿滿婉称。
微信號:shenzhenware
主筆:陳壹零 / 深圳灣
編輯:左思思 / 深圳灣