安全防護層層加碼,新一代耐用戰(zhàn)神 OPPO A5 Pro 正式開售
離線語音從場景到設備再到芯片,聽 5 位行業(yè)大佬解讀端上 AI 的共性和趨勢 | 特稿
灣里對話:Sonos紧显、云知聲讲衫、Rokid、思必馳孵班、全志科技
本文為深圳灣的一期特別策劃,來自 Sonos篙程、思必馳枷畏、云知聲、Rokid虱饿、全志科技拥诡、Arm 中國的 5 位專家,將為我們解讀關于離線語音助理的熱點話題氮发。同時渴肉,他們的觀點和洞見,也讓我們看到了從設備端到芯片再到 IP 內核爽冕,下一代語音 AI 平臺和技術的發(fā)展趨勢仇祭。
從 3 起語音助手初創(chuàng)公司的收購案說起
蘋果近日宣布收購了愛爾蘭的語音 AI 初創(chuàng)公司 Voysis。Voysis 成立于 2012 年颈畸,曾面向零售商推出了一個獨立的語音平臺乌奇,通過對用戶數據庫中產品嚣艇、服務和詞匯的深度學習,實現在較小的內存里實現 AI 的自然語言對話华弓。
蘋果公司可能會利用 Voysis 的技術來提高 Siri 對自然語言的理解能力食零,或者將 Voysis 平臺提供給開發(fā)者,以改善 Siri 與應用的協作方式寂屏。
△ Voysis 面向零售商推出的語音助手贰谣,可以實現更精準的搜索
而就在今年 1 月,蘋果以約 2 億美元的價格收購了另一家 AI 初創(chuàng)公司 Xnor迁霎。Xnor 面向智能設備吱抚,推出了低功耗機器學習技術,可以在離線的情況下運行考廉。
Xnor 和 Voysis 有相似之處秘豹,可以在很低的功耗或很小的內存下幫助智能設備實現離線語音。而離線是蘋果公司感興趣的昌粤,離線可以幫助設備更好的實現隱私既绕。
△ 智能家居設備商 Wyze 在攝像頭上采用了 Xnor 的離線 AI 技術,可以實現人臉涮坐、寵物凄贩、灰塵識別
蘋果的兩起收購案,無疑為我們帶來了信號袱讹,是時候要幫助 Siri 成長了疲扎。
無獨有偶,去年 11 月捷雕,音響界的蘋果 Sonos 公司宣布以 3750 萬美元的價格椒丧,完成了對語音助手初創(chuàng)公司 Snips 的收購。
Snips 是一個來自法國巴黎的語音助手初創(chuàng)公司救巷,成立于 2013 年壶熏。通過 Snips 的離線語音平臺,打造可以直接在設備端運行征绸、無需將信息傳輸到云端的語音助手久橙。這一主打離線操作語音平臺也正是 Sonos 收購 Snips 的最重要原因俄占。
△ Snips 語音平臺
離線語音助理:更快的響應速度管怠、更好的隱私保護、更自然的語音理解缸榄、更分散的使用場景渤弛、更細化的社會分工
去年深圳灣曾經與 Sonos 大中華區(qū)戰(zhàn)略合作副總裁張維明有過一次對話,談及 Sonos 收購 Snips 背后的思考甚带。
一方面她肯,隨著家庭里的智能設備數量越來越多佳头,設備需要穩(wěn)定和高效的響應速度,用戶也需要更好的隱私保護晴氨,而離線語音便是保障這兩點的解決方案康嘉,離線語音是大勢所趨。
另一方面籽前,Sonos 也不需要一個全能型的 AI 助手亭珍,Sonos 所打造的智能音箱與 Echo 等智能音箱有著本質的區(qū)別,后者帶有明顯的「入口化」和「多媒體化」特點枝哄,而 Sonos 更關注的是音樂體驗本身肄梨,而語音助手更像是一個個面向垂直場景的離線語音控制指令集。
△ Sonos Beam挠锥,支持 Alexa众羡、Google Assistant、Siri 和 Rokid 等多個語音助手
就拿語音點播這一個場景舉例蓖租,Sonos 希望能把體驗做到深處粱侣,或許打造更多適合垂直使用場景的音樂技能,甚至也有可能把語音指令做到類似 Spotify 這樣的內容里面蓖宦,實現體驗入微的內容點播甜害,這正是 Sonos 希望能帶給大家的極致音樂體驗的一個例子。
思必馳創(chuàng)始人球昨、首席科學家俞凱則認為尔店,近期有關邊緣計算的收購案很多,實際上是端上 AI主慰。端上 AI 和邊緣計算是兩個概念嚣州,雖然都不需要經過云端,但邊緣計算是在局域網和類局域網的邊緣終端上進行的共螺,而蘋果和 Sonos 這些消費電子廠商在做的是端上 AI该肴。
各家企業(yè)提出的「云+端」是普適的發(fā)展線路,云端比較集中藐不,端上比較分散匀哄,無論是設備、技術雏蛮、還是所提供的服務種類涎嚼。針對端上的普適性語音助手的技術目前還不明確,大公司從布局的角度上挑秉,會選擇收購小公司法梯,來盡可能覆蓋不同的設備場景。
對于蘋果公司來講,最典型的場景就是本地助理立哑。早在 2011 年 Siri 面世夜惭,語音助理的概念被拓展的很寬泛,而如今則面臨一個助理分散化的趨勢铛绰。蘋果的幾宗收購案的共性是诈茧,聚焦在生活類場景,與實際的業(yè)務邏輯結合在一起捂掰。
這里還看到一個趨勢——數字助理的行業(yè)化若皱,是自然而然發(fā)生的。就像人類的社會分工尘颓,隨著物質文明的進步走触,有專門的人鉆研專門的知識。而隨著數字助理的發(fā)展疤苹,也會有針對不同行業(yè)和領域的專門分工互广,有的公司做通用的數字助理,有的則選擇垂直領域深鉆卧土。
△ 思必馳低功耗模組
端上語音交互:從云端到芯片惫皱,小型化,與業(yè)務邏輯深度整合尤莺,ASR旅敷、TTS、NLP 將成為標配
對于端上 AI 交互的發(fā)展趨勢颤霎,思必馳俞凱也為我們做了總結媳谁。他認為,端上語音助理的小型化是現在的趨勢友酱。一方面晴音,技術層面上,識別缔杉、合成锤躁、理解的模型都要做到足夠小,另一方面或详,結合業(yè)務邏輯系羞,小場景,理解能力更強霸琴。
端上 AI 并不是簡單在將云端的技術拿來在端上跑椒振,雖然技術種類并沒有區(qū)別,但難度更大沈贝,比如杠人,端上可以識別語音的范圍和種類受限。其次宋下,端上語音 AI 的更新和定制嗡善,是要難于云端的,端上的深度學習更難学歧。
談及趨勢罩引,云知聲董事長、CTO 梁家恩認為枝笨,語音交互和硬件深度融合袁铐,結合低功耗邊緣計算加速能力,是大勢所趨横浑,這是也是云知聲做 AI 芯片的邏輯依據剔桨。
各家 AIoT 平臺必然是「云+芯」結合的形態(tài)出現,感知和生成層面工作徙融,基本上會在本地完成洒缀,云端解決協同和在線服務的問題。大公司基本上會圍繞自己業(yè)務構建 AI 體系欺冀,獨立第三方平臺主要是面向中小企業(yè)和垂直化尋求發(fā)展树绩。
梁家恩還指出,當前隐轩,離線挑戰(zhàn)在于低資源饺饭、低功耗情況下保持高性能、低成本职车,減少環(huán)境復雜和模型壓縮帶來的精度損失瘫俊。語音成為 IoT 設備的交互標配是大勢所趨,邊緣計算能力也成為必要條件悴灵。
Rokid 副總裁周軍認為军援,隨著模型小型化技術的進展,端側可以用非常小的運算資源運行非常優(yōu)秀的推理模型称勋。比如在一個 DSP 上跑語音信號處理與多達 50 個離線命令詞胸哥,噪聲下可以達到 90% 以上識別率。
目前赡鲜,端側的語音識別(ASR)空厌、語音合成(TTS)、甚至自然語言理解(NLP)占用的內存和運算資源還比較高银酬,這也是創(chuàng)業(yè)公司的機會嘲更,通過創(chuàng)新的算法、模型設計以及新的芯片架構來解決揩瞪。
△ Rokid 在 2018 年量產的 Kamino18 異構架構 DSP+NPU+CPU 至今還有很強的競爭力赋朦。
端側的 AI 訓練也將是一個趨勢,通過自學習進一步提高智能。此外宠哄,除了離線語音壹将,未來也會與離線視覺/圖像/環(huán)境理解結合,創(chuàng)造出更有意思的產品毛嫉。
當然端側還是需要與云端配合诽俯,實現多用戶協作,比如可以針對行業(yè)用戶承粤,定制智能 SaaS 服務暴区。
△ 可實現離線語音操作的 Rokid Glass 2
離線語音在很多場景會成為一個標配,不僅是智能音箱辛臊,AR 眼鏡也將是剛需仙粱。Rokid Glass可以在惡劣的工業(yè)環(huán)境下,無聯網下全語音操作彻舰。
離線 AI 芯片架構的設計趨勢:多重異構伐割、高質量的周邊 IP 配套、大算力淹遵、低功耗
近日口猜,全志科技聯合 Arm 中國推出了采用 AI 專核(周易 AIPU)跑智能語音的芯片 R329,它集成了 AIPU透揣、DSP济炎、CPU、雙核 HIFI4 共 5 顆計算核辐真,其最大的優(yōu)勢是在精度和算法移植的速度上的優(yōu)化上须尚,以及在設備端體現出來的低功耗、長續(xù)航侍咱、小型化耐床、可擴展性等特點。
全志科技副總裁陳風則認為楔脯,語音識別(ASR)技術在大多數家居場景已經達到了實用程度撩轰,短期內再有大幅度提升不太現實,而「人工智障」的問題還有很大的改善空間昧廷,因此接下來的提升重點在于語義理解(NLP)堪嫂。
NLP 的提升需要更高的深度學習算力,這就需要更強算力木柬、更高能耗比的芯片支持皆串。這意味著客戶對芯片的深度學習算力、以及能耗比要求眉枕,都有了指數級的提升恶复。對于芯片而言怜森,集成音頻 DSP 和音頻 NPU 的需求已經出現,發(fā)展趨勢非常明確谤牡。
本地 NLP 需要本地 ASR副硅、本地 TTS 以及傳統(tǒng)信號處理的配合,才能實現一個完整的端側語音識別功能拓哟,對應芯片的需求就是需要音頻 DSP 和音頻 NPU 的標配支持想许。
有很多人會關心伶授,除了語音断序,離線 AI 是否還有更大的拓展空間?陳風認為糜烹,現有通用 AP 用于離線 AI违诗,還有一些地方不盡如人意,目前市場上誰先推出集成了音頻 NPU 的芯片疮蹦,將更有可能在這個需求明確的市場上建立領導地位诸迟。
現在 NPU 市場百花齊放,導致算法公司和客戶存在大量的適配和優(yōu)化工作愕乎,NPU 市場現階段呈現碎片化狀態(tài)形式阵苇。
未來,離線 AI 芯片架構的設計將具備以下幾個特征:
1感论、支持多重異構:音頻 DSP绅项、音頻 NPU 不可或缺,本地 ASR比肄、NLP快耿、TTS 均是基于深度學習的算法,降噪芳绩、回聲消除等前端音頻信號處理也在快速往深度學習算力上轉移掀亥。
2、高質量的周邊 IP 配套妥色,如高精度多路 ADC搪花、DAC 配套,多路 I2C/TDM嘹害、DMIC撮竿、SPDIF、UART 支持等吼拥。
3倚聚、兼具大算力和低功耗兩大特性,以實現帶電池設備的待機可喚醒凿可,需要至少配備不小于 2MB 容量的 SRAM惑折,低功耗狀態(tài)下的內存帶寬需要至少大于 600MB/S授账。
下一代語音 AI 平臺和技術的趨勢:場景化、全鏈路惨驶、軟硬結合白热、高度可定制、云+芯
毋庸置疑粗卜,離線語音將成為 IoT 設備的標配屋确,逐漸在市場普及。
但離線語音的落地是有層次的续扔。思必馳俞凱認為攻臀,首先是完成基本的命令控制、設備交互纱昧;之后刨啸,基于對設備隱私的保護,大詞匯的語音合成识脆、理解设联、識別將逐步在設備端實現。
需要強調的是灼捂,離線語音是不好作為獨立的產品形態(tài)存在的离例,需要與云端能力結合,需要有一定的離在線結合能力悉稠,否則宫蛆,語音助理是無法進化的。而未來語音助理的自學習偎球、自進化能力是非常重要的洒扎。
在俞凱看來,下一代語音 AI 技術的發(fā)展衰絮,有兩個趨勢:1袍冷、場景化,未來會有越來越多的應用型公司猫牡;2胡诗、全鏈路、軟硬結合淌友、高度可定制煌恢、「云+芯」等綜合技術的整合。
而隨著 AI 產業(yè)的分化會越來越專業(yè)化震庭,思必馳將會進一步夯實全鏈路的技術平臺瑰抵,將場景級的賦能做到極致。
要點回顧
Sonos 不需要一個全能型的 AI 助手器联,而更關注的是音樂體驗本身二汛。在類似語音點播這個具體場景婿崭,把體驗做到深處。
Siri 把語音助理的概念拓展的很寬泛肴颊,而如今則面臨一個助理分散化的趨勢氓栈。蘋果從布局的角度上,通過收購語音初創(chuàng)公司婿着,來盡可能覆蓋不同的設備場景授瘦。
端上語音助理的小型化是現在的趨勢。一方面竟宋,技術層面上提完,識別、合成袜硫、理解的模型都要做到足夠小氯葬,另一方面挡篓,結合業(yè)務邏輯婉陷,小場景,理解能力更強官研。
離線挑戰(zhàn)在于低資源秽澳、低功耗情況下保持高性能、低成本戏羽,減少環(huán)境復雜和模型壓縮帶來的精度損失担神。
端側的 AI 訓練也將是一個趨勢,通過自學習進一步提高智能始花。此外妄讯,除了離線語音,未來也會與離線視覺/圖像/環(huán)境理解結合酷宵,創(chuàng)造出更有意思的產品亥贸。
對于芯片而言,集成音頻 DSP 和音頻 NPU 的需求已經出現浇垦,發(fā)展趨勢非常明確炕置。
未來,離線 AI 芯片架構的設計將具備以下幾個特征:支持多重異構男韧、高質量的周邊 IP 配套朴摊、兼具大算力和低功耗兩大特性。
離線語音的落地是有層次的此虑。首先是完成基本的命令控制甚纲、設備交互;之后朦前,基于對設備隱私的保護介杆,大詞匯的語音合成讹弯、理解、識別將逐步在設備端實現这溅。未來語音助理的自學習组民、自進化能力是非常重要的。
離線語音將成為 IoT 設備的標配悲靴。
微信號:shenzhenware
主筆:陳壹零 / 深圳灣
編輯:森林木 / 深圳灣
端側語言自然、流暢衩婚、實時交互即將實現窜护,未來生活更美好、更便捷谅猾,【表情】