安全防護層層加碼,新一代耐用戰(zhàn)神 OPPO A5 Pro 正式開售
從算法到芯片,離線語音的花式落地 | 對話啟英泰倫何云鵬
在這場語音 AI 的造芯之路上泞当,誰將 C 位出道迹蛤?
與中國的家庭不同襟士,歐美國家對于隱私的問題格外的注重盗飒。
在剛剛結(jié)束的 IFA 展上,我們也看到國外的許多廠商對于在家電設(shè)備上安裝智能語音助手并沒有那么感冒陋桂,畢竟通過互聯(lián)網(wǎng)廠商的系統(tǒng)連接云端服務(wù)逆趣,也就意味著設(shè)備要實時在線,并且用戶數(shù)據(jù)要實時共享嗜历。同時宣渗,實時在線實時監(jiān)聽,也就意味著更多的能耗梨州,盡管對于消費用戶來是微乎其微痕囱,但系統(tǒng)要支持 7x24 小時的 Always On,對于軟硬件性能都會有更高的要求摊唇。
但這并不意味著家電廠商對于語音交互方式的排斥咐蝇。相反,在原有的觸控或按鍵等交互方式的基礎(chǔ)上巷查,在設(shè)備本地增加基本的語音識別和控制功能有序,在特定場景用戶需要的時候,再提供恰到好處的服務(wù)岛请,這對于每隔一段時間都需要疊加新功能新概念的家電設(shè)備來說旭寿,是錦上添花的事兒。
有需求就有商機崇败,基于邊緣計算的離線語音盅称,逐漸興起。
1. 離線語音后室,沒那么簡單
離線語音解決的基本問題包括本地語音識別缩膝、本地計算、部分的數(shù)據(jù)訓(xùn)練岸霹。相應(yīng)的疾层,對于硬件的要求就是低功耗、低成本贡避、快速響應(yīng)痛黎。
Google 曾在 6 月開發(fā)者大會上予弧,推出了 Local Home SDK,其離線語音采用的是端云協(xié)同的方式湖饱,具體做法是:通過 SDK 和 API 接口掖蛤,允許開發(fā)者在上面為智能設(shè)備建立新的附加執(zhí)行路徑,使得 Google 的智能音箱設(shè)備能以 JavaScript 腳本運行這套協(xié)議和邏輯井厌,并通過局域網(wǎng)與設(shè)備實現(xiàn)通訊蚓庭、本地控制。而在本地執(zhí)行路徑失敗的情況下旗笔,云端將作為回退執(zhí)行路徑來處理指令彪置。
盡管 Google 有大批的開發(fā)者,但這套 Local Home SDK 對于開發(fā)者的挑戰(zhàn)還是很大蝇恶。已經(jīng)為上百種家電設(shè)備開發(fā)過離線語音的啟英泰倫的工程師拳魁,從云到端的,為我們分析了語音開發(fā)的難度撮弧。
云端語音開發(fā)潘懊,其核心是應(yīng)用各大云端平臺提供的接口,通過調(diào)用服務(wù)完成語音識別功能贿衍。這需要工程師明白接口調(diào)用及服務(wù)的要求授舟,也需要熟悉各種操作系統(tǒng)。同時贸辈,云端語音最終需要終端提供待識別的語音數(shù)據(jù)释树,也需要工程師了解語音采集的過程和降噪技術(shù),才能做成性能出眾的產(chǎn)品擎淤,這本身就有難度奢啥。
而對于終端語音開發(fā),雖然有廠家提供了如黑盒子一樣的離線語音技術(shù)嘴拢,做成類似 Google Local Home SDK 發(fā)布桩盲,但最終也需要工程師會編程,懂硬件結(jié)構(gòu)席吴,懂麥克風和語音采集降噪的技術(shù)赌结,這些都有不小的挑戰(zhàn)。
特別的孝冒,語音交互類的設(shè)備本身在產(chǎn)品形態(tài)上差異化很大柬姚,使用場景也呈現(xiàn)出碎片化的特點,要為用戶提供自然的本地語音交互體驗庄涡,就要對不同的產(chǎn)品做出不同的語音控制命令量承,這些都需要通過修改代碼實現(xiàn),工作量可想而知。再進一步的讓設(shè)備達到用戶所需要的「極致」體驗宴合,還要做效果調(diào)優(yōu)的工作,這就需要熟練的工程師迹鹅∝郧ⅲ總而言之,是有不少開發(fā)門檻和開發(fā)成本的斜棚。
2. 芯片設(shè)計阀蒂,沒那么簡單
其實像 Google 這樣在離線語音交互方向上探索的算法公司有很多,為了讓算法更好的支持終端弟蚀,他們正在掀起一輪「造芯」運動蚤霞。
將算法集成在芯片中,用芯片實現(xiàn)其算法的商業(yè)價值义钉,在產(chǎn)業(yè)上游卡位昧绣,閑暇之余再發(fā)幾款終端消費硬件獲得市場關(guān)注。不得不說捶闸,這樣的戰(zhàn)略規(guī)劃可謂是相當帥氣夜畴,尤其是在 5G+IoT 的黎明到來之際,市場前景一片大好删壮。
這也凸顯了算法公司對于自身優(yōu)勢和短板的認識贪绘。展開來說,他們對于語音識別央碟、語義理解税灌、知識圖譜、數(shù)據(jù)訓(xùn)練等軟件和算法的理解更強亿虽,但因為軟件業(yè)務(wù)本身太「輕」菱涤,在商業(yè)上很難實現(xiàn)快速落地,因此他們向「云端芯」一體化方向發(fā)展经柴,將業(yè)務(wù)延伸到芯片甚至硬件狸窘。
但算法公司做芯片,普遍面臨的挑戰(zhàn)是:龐大的數(shù)據(jù)和運算量導(dǎo)致成本和功耗都非常大坯认,將數(shù)十個中央處理器才能運算的數(shù)據(jù)通過一個端上的一顆小小的芯片完成(通常是基于通用芯片的智能語音控制模組)翻擒,技術(shù)上還存在難度。具體體現(xiàn)在:
首先牛哺,芯片設(shè)計周期長陋气,從預(yù)研到進入銷售期再到盈利,少說也要兩三年引润,因此必須做到提前卡位巩趁。
其次,芯片設(shè)計不同于軟件,可以通過快速迭代逐漸優(yōu)化议慰。芯片設(shè)計最重要的就是產(chǎn)品定義蠢古,如果一開始定義不好,等設(shè)計完成后發(fā)現(xiàn)缺乏競爭力再改别凹,就算是老羅這樣的外行拿著互聯(lián)網(wǎng)思維那一套跟你拍桌子草讶,也是無濟于事。
再次炉菲,語音 AI 芯片的集成化和工程化要求很高堕战,開發(fā)難度在前面我們已經(jīng)論述。
最后拍霜,眾所周知嘱丢,芯片必須依賴大規(guī)模出貨才能賺到錢,這也就決定了語音 AI 芯片必須下沉到智能家居祠饺、小家電越驻、兒童故事機等出貨量較大的設(shè)備市場,才能實現(xiàn)高凈值吠裆。而與這些設(shè)備商打交道伐谈,明顯的,芯片商比算法商更深諳其道试疙。
3. 芯片公司诵棵,是怎么做的?
那么離線語音這件事兒祝旷,如果芯片公司自己做會怎樣履澳?
我們舉個例子,看一下在語音 AI 芯片領(lǐng)域展露頭角的啟英泰倫的造芯歷程怀跛。
早在 2015 年距贷,行業(yè)內(nèi)關(guān)于本地端邊緣計算的概念還沒有興起,擁有 16 年芯片研發(fā)經(jīng)驗吻谋、雙棲「家電+芯片」多年忠蝗、曾是原海信信芯技術(shù)副總、長虹 IC 部門總經(jīng)理的何云鵬漓拾,在成都高新區(qū)成立啟英泰倫阁最,專門從事基于深度學(xué)習的語音識別芯片及配套算法引擎的研發(fā)。啟英泰倫在 2016 年推出了首款支持深度神經(jīng)網(wǎng)絡(luò)的人工智能語音芯片 CI1006骇两,次年開始量產(chǎn)速种。
在芯片設(shè)計方面,CI1006 采用的是可以實現(xiàn)更好的能耗比的 ASIC 架構(gòu)低千。而行業(yè)里的采用 FPGA 架構(gòu)的芯片公司配阵,如 Quicklogic,其低功耗多核語音芯片的成本就非常高,這對于很多出貨量大棋傍、對成本斤斤計較的設(shè)備商救拉,是「不劃算」的。
同時瘫拣,ASIC 架構(gòu)主要瞄準消費電子產(chǎn)品近上,晶體管會根據(jù)算法定制,因此不會出現(xiàn)冗余拂铡,計算效率高,性能高葱绒,功耗低感帅。
總而言之,「ASIC 架構(gòu)更像是工廠開模地淀,雖然前期開發(fā)時間長失球,上市相對比較慢,但非常適合量產(chǎn)帮毁。一旦量鋪開了实苞,均價也會快速降下來×揖危」何云鵬說黔牵。
而在算法方面,啟英泰倫則是結(jié)合芯片定制爷肝,功耗可控點更高猾浦。比如針對竊聽安全風險的問題,啟英泰倫的做法是這樣的:利用近數(shù)據(jù)端的邊緣結(jié)點灯抛,直接對數(shù)據(jù)源進行處理金赦,實現(xiàn)對一些敏感數(shù)據(jù)的保護與隔離;端節(jié)點可以僅接收來自云計算中心的請求对嚼,并將處理結(jié)果反饋給云端夹抗。
啟英泰倫的語音芯片內(nèi)置了自主研發(fā)的腦神經(jīng)網(wǎng)絡(luò)處理器 BNPU,支持本地大詞匯量的語音識別纵竖。通常本地語音識別詞匯量非常小漠烧,本地數(shù)據(jù)訓(xùn)練受限,而 CI1006 可以有效的解決本地語音識別和控制磨确。
4. 設(shè)備商沽甥,應(yīng)該如何選擇?
何云鵬幫我們分析了家電廠商的一般做法和存在的問題:通常情況下乏奥,如果一家廠商想要給自己的產(chǎn)品增加語音控制功能摆舟,就要去找軟件算法商、芯片公司、方案商恨诱,甚至是聲學(xué)方面的硬件商媳瞪。前期調(diào)研周期長不說,資源即使強大照宝,也只能成功對接到幾十家的有效支持蛇受。這種模式無法支持家電廠商全系大規(guī)模智能化的市場需求。
而家電廠商如果通過算法商基于普通芯片定制開發(fā)語音識別模組厕鹃,那么算法商需要從芯片原廠選定芯片兢仰,將云端算法移植到芯片上,并進行調(diào)試剂碴。然后還需要底層硬件開發(fā)公司將整體方案做成模組板卡把将,提供給家電廠商。這種實現(xiàn)方式鏈條環(huán)節(jié)多忆矛,周期長察蹲,家電廠商還要支付額外的開發(fā)費用和授權(quán)費用,這對于苛求毛利率到分的設(shè)備商來說催训,是必須要考慮的現(xiàn)實問題洽议。
如何判斷語音 AI 芯片是否靠譜呢?或許這里提煉的幾個特征漫拭,為家電和設(shè)備廠商們的評估提供了維度:
低成本亚兄、低功耗、低時延
云邊端一體化
芯片規(guī)格和制式可定制
9 月 19 日采驻,啟英泰倫將在深圳舉辦主題為「聲無界·芯未來」的新品發(fā)布會儿捧,推出新一代語音芯片和語音 AI 開發(fā)平臺,旨在進一步降低產(chǎn)品智能化開發(fā)和成本門檻 挑宠,助力終端設(shè)備商更高效率菲盾、更低成本實現(xiàn)智能化。現(xiàn)場將設(shè)立新技術(shù)體驗及專屬洽談區(qū)各淀,期待行業(yè)精英參與懒鉴。??
報名通道:
http://www.yongjuxing.com/events/1047030641?from=eventIndexBanner