還別說(shuō)噪生,耳機(jī)鑲鉆,真好看东囚!
從傳統(tǒng)麥克風(fēng)到智能麥克風(fēng)塔猾,語(yǔ)音技術(shù)在硬件上的進(jìn)化與轉(zhuǎn)變 | WARE 2017
語(yǔ)音技術(shù)看似簡(jiǎn)單鸦采,實(shí)則是一個(gè)龐大和復(fù)雜的工程宾巍。
在人機(jī)交互領(lǐng)域渔伯,語(yǔ)音是最自然的交互方式顶霞,完整的語(yǔ)音系統(tǒng)涉及到人聲喚醒、語(yǔ)音識(shí)別锣吼、語(yǔ)義分析选浑、邏輯判斷、信息回饋玄叠、語(yǔ)音合成鲜侥,以及機(jī)器的麥克風(fēng)陣列、音頻編解碼诸典、應(yīng)用處理器等描函,從軟件到硬件的方方面面。
對(duì)于用戶來(lái)說(shuō)狐粱,通過(guò)額外的操作喚醒語(yǔ)音設(shè)備的方式顯得多此一舉舀寓,未來(lái)的語(yǔ)音設(shè)備必定是全天候 24 小時(shí)在線,隨時(shí)隨地聆聽(tīng)肌蜻,等待用戶的喚醒互墓。
在深圳灣舉辦的「WARE 2017 語(yǔ)音智能平臺(tái)與應(yīng)用峰會(huì)」中,瑞聲科技高級(jí)研發(fā)工程師張金宇從語(yǔ)音交互的硬件基礎(chǔ)上進(jìn)行分享和交流蒋搜,和在場(chǎng)的觀眾共同探討語(yǔ)音技術(shù)未來(lái)的發(fā)展趨勢(shì)篡撵。
以下來(lái)自張金宇在「WARE 2017 語(yǔ)音智能平臺(tái)與應(yīng)用峰會(huì)」的演講整理。
語(yǔ)音技術(shù)應(yīng)該「隨時(shí)隨地」豆挽,并且「自然而然」
人機(jī)交互分三類育谬,首先是視覺(jué)交互,它的特點(diǎn)是豐富帮哈、沉浸膛檀,比如在一些游戲和娛樂(lè)領(lǐng)域的應(yīng)用,因?yàn)樗軌蛱峁┳銐蜇S富的信息量娘侍,給用戶展現(xiàn)具有沖擊力的畫面咖刃,3D 眼鏡和體感操控的浪潮更是把沉浸式的視覺(jué)體驗(yàn)推到了一個(gè)極致。第二是觸覺(jué)的交互憾筏,包括鍵盤嚎杨、觸屏,這種交互方式應(yīng)用于對(duì)操作精準(zhǔn)度要求更高的場(chǎng)合氧腰,比如日常辦公枫浙、設(shè)計(jì)領(lǐng)域刨肃。第三是語(yǔ)音,語(yǔ)音交互一個(gè)很重要的市場(chǎng)是家居和生活領(lǐng)域自脯,其特點(diǎn)是自然開(kāi)放之景,隨時(shí)隨地工作,給我們輕松便利的反饋和信息支持膏潮。
語(yǔ)音是一個(gè)很開(kāi)放的東西锻狗,在機(jī)器對(duì)話中,我們希望機(jī)器人不僅僅是菜單式的選擇焕参,而是能夠結(jié)合上下文進(jìn)行理解轻纪,然后做出有效的回應(yīng),這也是語(yǔ)音技術(shù)的一個(gè)難點(diǎn)叠纷。在生活中刻帚,語(yǔ)音可以解放我們的雙眼和雙手,把「智能」放到幕后涩嚣,不再讓「智能」成為生活的負(fù)擔(dān)崇众,而是隱藏在背后的,稱職的助手航厚。
對(duì)于家里的老人和小孩來(lái)說(shuō)顷歌,他們不容易掌握最酷炫的技術(shù),也常常不喜歡去操作功能復(fù)雜的智能家電幔睬。我們能不能為他們做些什么呢眯漩?語(yǔ)音技術(shù)是一個(gè)天然的、低學(xué)習(xí)成本的交互方式麻顶,隨著語(yǔ)音交互技術(shù)的成熟赦抖,我們讓這些人群更好地享受智能設(shè)備帶來(lái)的便捷。
所以辅肾,一個(gè)語(yǔ)音助手队萤,它應(yīng)該做到的是自然而然,隨時(shí)隨地宛瞄。隨著技術(shù)臻于成熟和精致浮禾,讓它學(xué)著理解我們既有的語(yǔ)言習(xí)慣,不需要我們懂它份汗。這樣,「智能」才能真正的深入到人們的生活蝴簇,而不是讓人「眼前一亮」的技術(shù)杯活。
功耗更低、體積更小熬词、成本更少的智能麥克風(fēng)
為了適應(yīng)智能交互的要求旁钧,我們希望語(yǔ)音系統(tǒng)可以 24 小時(shí)全天候工作吸重,你可以隨時(shí)給它一個(gè)信息,讓它喚醒一個(gè)設(shè)備歪今,然后讓它去識(shí)別嚎幸,這樣才適合我們生活的狀態(tài),但是這樣做功耗太大寄猩。
為了解決這些問(wèn)題嫉晶,我們嘗試著先于市場(chǎng)邁出一小步,開(kāi)發(fā)了一款智能麥克風(fēng)田篇。這款智能麥克風(fēng)把語(yǔ)音喚醒功能集成在一塊芯片上替废,允許麥克風(fēng)外的整機(jī)處于休眠狀態(tài),從而節(jié)省電量的消耗泊柬。當(dāng)用戶開(kāi)啟語(yǔ)音助手的時(shí)候椎镣,麥克風(fēng)會(huì)發(fā)出一個(gè)信號(hào),喚醒需要開(kāi)啟的模塊兽赁。這款智能麥克風(fēng)最低可以做到低于 100 微瓦安的靜態(tài)功率状答,可以完成毫秒級(jí)的觸發(fā)動(dòng)作,真正地讓用戶擺脫了對(duì)功耗的顧慮刀崖。
除了功耗之外惊科,我們還希望它的體積足夠小,成本足夠低蒲跨,并可以適用于不同類型译断,不同應(yīng)用場(chǎng)景的設(shè)備。
我們開(kāi)發(fā)了 Analog AVD 技術(shù)或悲,用以區(qū)分人聲與環(huán)境噪聲孙咪,避免在嘈雜的環(huán)境下長(zhǎng)時(shí)間的處于喚醒狀態(tài)。我們引入了小體積巡语、低主頻翎蹈、低功耗的關(guān)鍵字識(shí)別單元,為更多的智能設(shè)備提供低門檻的語(yǔ)音控制方案男公。我們加入了壓電麥克風(fēng)的 wake on sound 功能棍掐,實(shí)現(xiàn)了接近零功耗的靜態(tài)模式烘苹。借助立體封裝技術(shù),我們把這些功能封裝于數(shù)個(gè)毫米的極致空間之內(nèi)。
語(yǔ)音產(chǎn)品要結(jié)合不同的應(yīng)用場(chǎng)景和需求
防水與防塵已經(jīng)逐漸成為主流手機(jī)的標(biāo)準(zhǔn)配置〔⊥現(xiàn)有的雙層結(jié)構(gòu)的電容式 MEMS 麥克風(fēng),當(dāng)水或者顆粒物進(jìn)入振膜和背極之間的間隙鞋邑,會(huì)引起致命的失效荚虚。目前主流的手機(jī),比如 iPhone7 或者三星 S7速梗,均通過(guò)一層防水膜屏蔽異物的侵入肮塞,但僅僅用于防范正常使用中的意外進(jìn)水襟齿,并不能讓用戶自由地在有水或者沙塵環(huán)境下使用,也并不提供進(jìn)水的保修枕赵。瑞聲開(kāi)發(fā)的 MEMS 壓電麥克風(fēng)則是一個(gè)單層膜結(jié)構(gòu)猜欺,即使有少量的水或顆粒物進(jìn)入,對(duì)性能也幾乎不產(chǎn)生影響拷窜。這實(shí)現(xiàn)了由避免侵入到不懼侵入的跨越开皿。
隨著語(yǔ)音交互技術(shù)的不斷進(jìn)步和提升,音頻硬件和算法装黑、應(yīng)用端各自為戰(zhàn)的情形顯然是難以應(yīng)對(duì)市場(chǎng)的需要的副瀑。在這里,一方面恋谭,我希望能給大家?guī)?lái)一些聲學(xué)器件方面的視角糠睡,更重要的,也希望我們能在彼此交流中疚颊,碰撞出一些新的火花狈孔。
現(xiàn)場(chǎng)觀眾提問(wèn)
提問(wèn):我想問(wèn)一下,把 AVD 放在 ADC 之前材义,目前這個(gè) AVD 是做到什么樣的水平均抽?它能夠識(shí)別關(guān)鍵詞,還是只能識(shí)別噪音其掂? 它的記憶原理是什么油挥?
張金宇:它能識(shí)別一個(gè)穩(wěn)定的噪聲和一個(gè)突發(fā)的聲音。另外款熬,它識(shí)別人聲和其他的噪聲的成功率很高深寥,比如按喇叭的聲音,和人突然對(duì)它說(shuō)話的聲音贤牛。但是關(guān)鍵字的話 AVD 是做不到的惋鹅。
它的記憶不僅僅是頻譜,這是一個(gè)比較長(zhǎng)的技術(shù)發(fā)展過(guò)程殉簸。最初它是在數(shù)字端來(lái)實(shí)現(xiàn)的闰集,一個(gè)比較復(fù)雜的算法,不斷收集中文的般卑,英文的武鲁,它一些發(fā)音的特點(diǎn)積累下來(lái)形成一個(gè)算法,一個(gè)經(jīng)驗(yàn)庫(kù)蝠检,然后逐漸把它簡(jiǎn)化洞坑,可以在一個(gè)很低的功耗下來(lái)實(shí)現(xiàn)。
提問(wèn):我們用怎樣客觀的方式去測(cè)試麥克風(fēng)陣列處理之后的結(jié)果蝇率?
張金宇:這應(yīng)該是取決于你具體適用的目的迟杂,取決于具體的功能。
提問(wèn):瑞聲的麥克風(fēng)的有開(kāi)關(guān)功能本慕,這個(gè)開(kāi)關(guān)的限定是設(shè)定在什么位置比較合適排拷?
張金宇:現(xiàn)在有兩種模式,一種是自身用的模式锅尘,它靠它的芯片來(lái)判斷监氢,比如在地鐵里它會(huì)自動(dòng)調(diào)高,在會(huì)場(chǎng)上會(huì)降低藤违,在家里會(huì)降得更低浪腐。另外,它也可以是通過(guò)上位機(jī)顿乒,比如手機(jī)的 AP(應(yīng)用處理器)议街,或者是智能家居的 MCU 來(lái)控制。
后記:
在峰會(huì)后的講師晚餐中璧榄,我們和金宇聊到了智能麥克風(fēng)的應(yīng)用場(chǎng)景特漩,智能手機(jī)、智能家居骨杂、以及現(xiàn)在銷量已經(jīng)超過(guò) Apple Watch 的 AirPod 智能耳機(jī)涂身。我們能看到語(yǔ)音智能聊天手機(jī)未來(lái)可觀的終端增長(zhǎng)數(shù)量,也看到了脫離手機(jī)的語(yǔ)音喚醒的智能耳機(jī)搓蚪,對(duì)于麥克風(fēng)等硬件的挑戰(zhàn)蛤售。比如關(guān)鍵字識(shí)別需要的模塊略大,如果僅僅是 VAD 功能的妒潭,大約在 3.x mm * 2.x mm悴能,如果需要關(guān)鍵字觸發(fā),就需要 4.x * 3mm杜耙。另外用不同 IC 工藝節(jié)點(diǎn)可以縮減尺寸搜骡,但是成本提高及比較多了。
我們期待上游廠商在硬件技術(shù)研發(fā)上的突破佑女,為下游應(yīng)用廠商帶來(lái)的豐富場(chǎng)景應(yīng)用機(jī)會(huì)记靡。