地平線獲約 6 億美金 B 輪融資,公司估值達(dá) 30 億美金
自動駕駛是「登月計劃」,這一站落地 AIoT | 對話地平線
AI 技術(shù)不是分裂的,而且最終會走向融合
在 AI 落地這件事情上,在自動駕駛行業(yè)有著不錯成績的地平線彭谁,最近在消費(fèi)硬件領(lǐng)域有了新的動作吸奴。
上個月,在小米米家智能生活新品發(fā)布上,幾款新品的背后则奥,都有地平線的技術(shù)支持考润。
經(jīng)過這幾年的發(fā)展,智能音箱已經(jīng)成為讓 AI 快速接近消費(fèi)者的重要載體读处,也成為各家 AI 公司的必爭之地额划。地平線是如何讓自家的 AI 落地到以智能音箱為代表的消費(fèi)硬件?我們先從這幾款新品看起档泽。
小米的實(shí)力派選手:降噪拾音能力更強(qiáng)
作為國內(nèi)前三大智能音箱品牌之一俊戳,小米近期推出的兩款新品,小愛音箱 PLAY(小白箱)及小愛音箱萬能遙控版(小黑箱)馆匿。前者主打音質(zhì)抑胎、音樂服務(wù)(海量內(nèi)容),后者支持 WiFi渐北、紅外阿逃、藍(lán)牙多種方式控制家電的功能。
此外恃锉,這兩款音箱背后,有著更深層次的技術(shù)優(yōu)化呕臂。
發(fā)布會上破托,小米強(qiáng)調(diào),小愛音箱作為實(shí)力派選手歧蒋,它升級了更智能的對話能力土砂,在拾音上,較以往有了不同:
可在復(fù)雜的噪聲環(huán)境中實(shí)現(xiàn)隨時打斷谜洽、隨時喚醒萝映。也就是說,你可以通過免喚醒打斷來中斷跟它對話阐虚,這樣一來能有效提高對話的效率序臂。
再者,在邊緣計算的加持下实束,語音助手在低功耗狀態(tài)下保持待命奥秆,確保用戶在喚醒時能第一時間回應(yīng),使得交互體驗(yàn)更流暢磕洪。
地平線賦能音箱的背后:強(qiáng)干擾條件下的信號抽取
在造智能音箱這個事情上吭练,小米具備供應(yīng)鏈、渠道實(shí)力析显,在內(nèi)容鲫咽、技術(shù)上签赃,也善于取各方之長,集各個方案商的技術(shù)分尸,讓產(chǎn)品在特定功能上有更優(yōu)秀的表現(xiàn)锦聊。
而這一次也不例外。此次小米小愛音箱所采用的前端語音方案來自國內(nèi)的邊緣 AI 芯片及解決方案提供商地平線箩绍。事后孔庭,我們也和地平線多模交互產(chǎn)品總經(jīng)理張宏志聊了聊這個技術(shù)方案實(shí)現(xiàn)原理,及其產(chǎn)品實(shí)現(xiàn)所面臨的挑戰(zhàn)材蛛。
此次發(fā)布的小愛音箱 PLAY 及小愛音箱萬能遙控版圆到,均搭載地平線自研的增強(qiáng)語音抽取(Enhanced Speech Extraction卑吭,簡稱 ESE)方案芽淡。
在更早之前,地平線的 ESE 方案就已經(jīng)應(yīng)用在小米年初發(fā)布的小愛觸屏音箱豆赏≌醴疲基于該方案,僅用雙麥克風(fēng)即可在強(qiáng)噪聲干擾條件下有效抽取語音信號掷邦,弱化家居生活場景中的常見噪聲白胀,比如電視、廚房抚岗、洗衣機(jī)以及其他人聲的干擾或杠,提升產(chǎn)品的喚醒率。
這一次苟跪,地平線與小米的合作更加深入廷痘。地平線表示蔓涧,要達(dá)到流暢的對話體驗(yàn)件已,仍面臨諸多挑戰(zhàn)。兩者合作主要克服了以下幾點(diǎn)難題:
回聲干擾下的喚醒率元暴。在抽取生活常見噪聲的基礎(chǔ)上篷扩,地平線進(jìn)一步升級 ESE 方案,針對回聲干擾下的喚醒率做了優(yōu)化茉盏。
內(nèi)存和功耗鉴未。隨時喚醒就意味著語音 AI 在后臺處于「隨時待命」的狀態(tài),這就對內(nèi)存和功耗造成一定的壓力鸠姨。相比之前的小愛觸屏音箱铜秆,地平線針對此次發(fā)布的新品進(jìn)行了深度優(yōu)化,使 CPU 和內(nèi)存占用降低了 30%讶迁,顯著降低了功耗连茧。
數(shù)據(jù)訓(xùn)練。在這方面,地平線與小米大腦保持緊密合作啸驯,對語音識別技術(shù)(ASR)進(jìn)行融合訓(xùn)練客扎。運(yùn)用深度神經(jīng)網(wǎng)絡(luò)技術(shù)方案,地平線對喚醒詞的發(fā)音特點(diǎn)罚斗、使用場景及噪音類型進(jìn)行了深入的分析和有針對性的系統(tǒng)優(yōu)化徙鱼。
算法的快速跟蹤。小米此次還發(fā)布 AI 新物種「小愛老師」针姿,集電子詞典+口語訓(xùn)練機(jī)+單詞機(jī)+錄音筆+翻譯機(jī)多功能袱吆。與智能音箱不同,它是通過按鍵控制拾音的起始和結(jié)束距淫,而非持續(xù)拾音杆故,這對算法的快速跟蹤提出了挑戰(zhàn)。
針對這款新品溉愁,地平線 ESE 方案加入自適應(yīng)均衡機(jī)制適配識別模型处铛,同時,在前端進(jìn)行算法優(yōu)化有效實(shí)現(xiàn)語音降噪拐揭,提高語音識別率撤蟆。
地平線在消費(fèi)硬件領(lǐng)域的表現(xiàn):還有車載 AI 技術(shù)
作為一家以智能駕駛為核心業(yè)務(wù)的公司,地平線的語音方案也率先在汽車落地堂污。
在今年 4 月份的上海車展中家肯,地平線就公布了其與理想 ONE 的合作,為理想 ONE 增程式智能電動車配備「車載多音區(qū)交互技術(shù)」盟猖。包括聽音辨位的語音分區(qū)功能讨衣,定制 30 余個免喚醒命令詞等。
與家庭環(huán)境不同式镐,車內(nèi)噪音受到胎噪反镇、行駛車速等諸多因素的影響。為了應(yīng)對日后車內(nèi)更為復(fù)雜的環(huán)境娘汞,地平線創(chuàng)造性地將視覺歹茶、聽覺融合形成多模感知,在語音感知的基礎(chǔ)上提供多一層的「保障」你弦,即使高噪音惊豺、強(qiáng)干擾、低聲量的情況下也保證高喚醒率和高識別率禽作。
針對語音「隨時在線」的邊緣計算也是一個重要趨勢尸昧。一方面,邊緣計算使得一部分語音指令在本地處理旷偿,在減輕云端負(fù)擔(dān)的同時烹俗,響應(yīng)更迅速碍沐、及時。另一方面衷蜓,用戶最關(guān)心的隱私問題也能得到安全的保障累提。這恰恰也是地平線在智能駕駛領(lǐng)域所專注的技術(shù)。
互聯(lián)網(wǎng)大廠穩(wěn)抓語音 AI 這一下一個平臺級入口的同時磁浇,AI 技術(shù)廠商在算法斋陪、芯片上精耕細(xì)作,往往能在某一方面擁有突出的表現(xiàn)置吓,也能照顧到 B 端客戶的某一強(qiáng)需求无虚。此次地平線與小米,就基于更深入的合作衍锚,將 ESE 方案的作用發(fā)揮到更優(yōu)友题,滿足了消費(fèi)端硬件對 AI 技術(shù)的要求。
== 對話地平線 ==
深圳灣:地平線在語音 AI 技術(shù)方面的技術(shù)儲備戴质,從什么時候開始的度宦?
張宏志:公司成立初期就已經(jīng)開始。語音交互技術(shù)是人機(jī)交互在 AI 時代最基礎(chǔ)的能力告匠,這一基礎(chǔ)能力與芯片有著強(qiáng)關(guān)聯(lián)戈抄。作為一家邊緣AI芯片公司,地平線要解決的問題是針對場景化的 AI 落地后专,提供強(qiáng) AI 能力的支撐划鸽。因此,地平線會重視 AI 時代的各種基礎(chǔ)能力戚哎,包括語音裸诽、圖像、芯片等 AI 底層核心能力型凳。
深圳灣:地平線最初給外界的印象丈冬,一直在自動駕駛領(lǐng)域深耕,為什么會涉足智能音箱/消費(fèi)電子類產(chǎn)品的應(yīng)用方向啰脚?
張宏志:在小米智能產(chǎn)品發(fā)布之前殷蛇,地平線的語音技術(shù)在一些行業(yè)合作伙伴中已有所落地,包括:通過給合作伙伴提供語音算法橄浓,合作伙伴的語音方案已經(jīng)通過了亞馬遜 Alexa 的認(rèn)證;在車載語音方面亮航,地平線的語音技術(shù)目前在理想新能源汽車中處于落地的過程中荸实。
AI on Horizon,做 AI 時代最底層的賦能者缴淋,是地平線的公司戰(zhàn)略准给,地平線希望聚焦 AI 底層能力的構(gòu)建和打磨泄朴,未來賦能更多行業(yè)客戶。
深圳灣:除了小米的智能音箱露氮、「小愛老師」等產(chǎn)品祖灰,地平線 ESE 方案還有哪些應(yīng)用案例?
張宏志:我們和合作伙伴的合作范圍還挺廣的畔规,目前也已延伸到海外市場局扶,主要終端品類以 IoT 為主。
深圳灣:在語音 AI 技術(shù)方面的優(yōu)勢體現(xiàn)在哪里叁扫?與別家的技術(shù)有什么不同三妈?
張宏志:AI 語音技術(shù)的核心點(diǎn)在于芯片和底層 AI 加速單元的深度匹配和調(diào)優(yōu)。地平線是一個專注芯片和算法的公司莫绣,尤其在底層加速方面有很大的優(yōu)勢畴蒲,主要體現(xiàn)在低功耗、強(qiáng)性能对室。
深圳灣:地平線在 DSP 和邊緣端上的算法集成模燥,是如何做的?在提升算法效率和減少功耗方面掩宜,取得了哪些進(jìn)展涧窒?
張宏志:首先,從地平線公司戰(zhàn)略的角度來講锭亏,地平線核心聚焦的能力范疇在感知層面纠吴,即將語音、圖像的物理世界轉(zhuǎn)換為數(shù)字世界的過程慧瘤。
其次戴已,我們支持開放式集成的合作方式,我們會將算法開放給第三方硬件平臺和芯片锅减,去做集成糖儡。
這也是地平線公司戰(zhàn)略「AI on Horizon」的重要基礎(chǔ)。
目前怔匣,地平線已經(jīng)完成在主流 ARM 等主流計算架構(gòu)上相關(guān)算法的適配握联,以及深度優(yōu)化工作,DSP 的工作也正在開展之中每瞒。
傳感器方面金闽,地平線已經(jīng)跟行業(yè)里的優(yōu)質(zhì)合作伙伴達(dá)成了深度的戰(zhàn)略合作關(guān)系,包括麥克風(fēng)剿骨、攝像頭代芜、雷達(dá)等。在其中浓利,地平線更多的集中在芯片挤庇、算法钞速、深度學(xué)習(xí)架構(gòu)的開發(fā),即核心技術(shù)能力的建設(shè)嫡秕,以及與合作方的對接和連橋上渴语,算法的集成、測評體系昆咽,更多的是由硬件方案商驾凶,產(chǎn)品商來做整體的集成。
地平線始終堅守自己能力范疇潮改,輸出核心技術(shù)能力狭郑,賦能硬件合作方。
深圳灣:地平線已經(jīng)推出了智能駕駛芯片和 AIoT 芯片汇在。地平線目前的策略是翰萨,提供底層 AI 技術(shù)方案,助力合作伙伴產(chǎn)品落地的糕殉。為適應(yīng)不同的落地場景亩鬼,是否會有更多的芯片推出?
張宏志:目前阿蝶,地平線更多的精力會集中在基于芯片的產(chǎn)品落地上雳锋。從地平線的認(rèn)知角度來講,在 AI 領(lǐng)域羡洁,圖像玷过、語音的能力,以及各種傳感器感知的結(jié)果筑煮,會最終走向融合辛蚊,而不是分裂。
例如真仲,自動駕駛涵蓋的人機(jī)交互的語音技術(shù)袋马、車內(nèi)攝像頭(圖像)的技術(shù),以及車身各種傳感器(雷達(dá))秸应,都需要經(jīng)過一系列的 AI 算法虑凛,提供一個統(tǒng)一、標(biāo)準(zhǔn)化的 AI 感知的輸出結(jié)果软啼,提供給上層應(yīng)用桑谍,最終實(shí)現(xiàn)智能座艙、路徑規(guī)劃焰宣。
我們認(rèn)為霉囚,通過一塊更高集成度的芯片來處理各種傳感器計算的需要,會是一個主流趨勢匕积。而不是把每一個能力(比如語音盈罐、圖像等)分開處理。
深圳灣:一方面闪唆,我們期待一個高集成度的芯片盅粪,另一方面,針對特定場景悄蕾、用戶票顾、設(shè)備,又會有垂直方案的需求帆调。地平線如何做到高度集成和能力開放的平衡奠骄?
張宏志:事實(shí)上,芯片的加速單元番刊,和算法的適配含鳞,這兩者是可以解耦的。地平線力求通過自己的芯片芹务,利用好算法蝉绷,在功耗、性能枣抱、成本等方面達(dá)到極致追求熔吗。
在將芯片、算法佳晶、計算架構(gòu)等落實(shí)到具體場景上桅狠,地平線抱著完全開放的心態(tài),通過芯片開放賦能轿秧,成就合作伙伴和客戶中跌。
高集成度和垂直細(xì)分看似對立矛盾,但在我們看來淤刃,技術(shù)的發(fā)展會走向統(tǒng)一晒他。在各個細(xì)分領(lǐng)域里,會有垂直的 AI 芯片來解決細(xì)分的問題逸贾。而在細(xì)分領(lǐng)域里面陨仅,地平線有能解決問題相關(guān)的算法,也會開放給各種硬件廠商做適配铝侵,滿足市場需求灼伤。
深圳灣:今年依舊是 AI 行業(yè)的落地年,地平線過往在自動駕駛領(lǐng)域的行業(yè)落地經(jīng)驗(yàn)咪鲜,對現(xiàn)在有什么啟發(fā)和借鑒嗎狐赡?
張宏志:主要有三點(diǎn)。
第一疟丙,在人工智能時代颖侄,硬件一定是超配的鸟雏。目前的 AI 能力正在突飛猛進(jìn)的發(fā)展,硬件本身需要承載更多的計算力览祖。這就要求孝鹊,在一開始做硬件產(chǎn)品設(shè)計的時候,需要超配的設(shè)定展蒂,而不能缺斤短兩又活,否則后續(xù)的 AI 能力升級跟不上。
人工智能時代硬件的生命周期锰悼,一定是遠(yuǎn)遠(yuǎn)超過移動互聯(lián)網(wǎng)時代的硬件柳骄,比如汽車。
第二箕般,在 AI 能力建設(shè)方面耐薯,自動駕駛是行業(yè)里的一個非常好的標(biāo)桿,相當(dāng)于全人類的的「登月計劃」隘世,或是一個攀登珠穆朗瑪峰的過程可柿。駕駛領(lǐng)域的 AI 解決方案,能在消費(fèi)硬件領(lǐng)域遷移丙者、提供參考复斥。
例如,我們基于自動駕駛 AI 技術(shù)領(lǐng)域的實(shí)踐經(jīng)驗(yàn)械媒,將視覺目锭、語義信息融合,應(yīng)用在消費(fèi)硬件領(lǐng)域纷捞,達(dá)到提高語音識別效果的目的痢虹。兩者在面臨同一類問題時,解決方案也有相似性主儡。
第三奖唯,AI 時代更加需要聚焦場景。目前糜值,市場上很多產(chǎn)品的 AI 能力與人們的預(yù)期還有一段距離丰捷,這就要求在進(jìn)行產(chǎn)品設(shè)計時,需要更加聚焦場景寂汇,需要更加聚焦特定的 AI 應(yīng)用病往,將 AI 能力做深、做透骄瓣, 為客戶和使用者帶來更優(yōu)質(zhì)的體驗(yàn)停巷。