自定義喚醒+聲紋識別+屏幕語音雙交互夯缺,叮咚第七款智能音箱正式上市
叮咚魏強:解構(gòu)國產(chǎn) AI 音箱的軟硬件設(shè)計又厉、困境與出路 | 超級硬課堂
聽中國最懂智能音箱的人侃智能音箱菠镇。
前言:
今年 4 月 禀梳、7 月杜窄,深圳灣先后兩次啟動了「語音智能·平臺與應(yīng)用峰會」,并陸續(xù)推出超過 100 篇深度報道算途,并通過深圳灣社區(qū)塞耕、微信公眾號、及知乎等平臺得到廣泛傳播嘴瓤,在國內(nèi)首次引發(fā)了全行業(yè)對于語音智能熱潮的系統(tǒng)和全面的思考扫外,收獲了業(yè)界無數(shù)的贊譽。
在廣大行業(yè)用戶的簇擁下廓脆,我們開始了新的嘗試:聯(lián)合知乎 Live筛谚,陸續(xù)推出「深圳灣·超級硬課堂」系列課程線上版,邀請軟硬件領(lǐng)域的先行者和實踐者停忿,圍繞行業(yè)熱點驾讲,一一解讀。10 月 16 日席赂,我們邀請了深圳灣的老朋友——北京靈隆科技 CEO 魏強博士做客「深圳灣·超級硬課堂」吮铭,從多個角度解讀語音交互產(chǎn)品的軟硬件設(shè)計。
魏強博士 2004 年獲得日本京都大學工學博士學位÷#現(xiàn)任京東和科大訊飛合資公司北京靈隆科技有限公司總經(jīng)理沐兵,負責公司運營、智能硬件相關(guān)多條產(chǎn)品線的設(shè)計便监、研發(fā)和生產(chǎn)扎谎。曾任松下電器音視頻產(chǎn)品總監(jiān)碳想、京東智能集團產(chǎn)品總監(jiān)、期間主持了智能家居毁靶、智能家庭私有云等多款產(chǎn)品的研發(fā)工作胧奔,具有豐富的人工智能、圖像語音技術(shù)及相關(guān)產(chǎn)品研發(fā)經(jīng)驗预吆。魏強博士是叮咚系列智能音箱的總設(shè)計師龙填,是國內(nèi)最早做智能音箱、并實現(xiàn)智能音箱量產(chǎn)的第一人拐叉。
什么是智能音箱岩遗,智能音箱有哪些基本功能,一臺最簡單的智能音箱也要整合哪些上下游產(chǎn)業(yè)鏈資源凤瘦,軟件尤其是硬件技術(shù)有什么要求宿礁,聲學結(jié)構(gòu)的設(shè)計有哪些要點,國內(nèi)和國外智能音箱系統(tǒng)模式有何異同蔬芥,以及未來會怎樣…… 這個課程詳細覆蓋和講解了這些問題梆靖。
背景 | 亞馬遜 Echo 引領(lǐng)的智能音箱浪潮
2014 年 8 月,智能音箱鼻祖 Echo 問世笔诵》滴牵可能連亞馬遜自己也沒想到,這款小小的語音設(shè)備日后會掀起一股巨大的 AI 音箱浪潮乎婿。
Echo 經(jīng)歷了一段時間的潛伏期测僵,于 2015 年 9 月突破 100 萬銷量;到了 2016 年 4 月谢翎,高性價比 Dot 的推出促使 Echo 系列產(chǎn)品銷量呈幾何倍數(shù)增長捍靠;截止今年 9 月已突破 1000 萬臺銷量,為亞馬遜貢獻了近 10 億美元的收入岳服。
Echo 的成功刺激頂級科技公司紛紛布局搶奪智能語音交互入口權(quán),其中最具代表性的便是同來自硅谷的 Google Home希俩、微軟 Invoke 及蘋果 Home Pod吊宋。
不久后,這股硅谷音箱熱就蔓延到了國內(nèi):
除了最早于 2015 年推出的叮咚 A1颜武,聯(lián)想璃搜、喜馬拉雅、阿里巴巴鳞上、小米等廠商均于 2017 年推出了智能音箱產(chǎn)品这吻。
魏強博士認為之所以各大廠商都如此重視智能音箱這個單品,主要有兩個原因:
一是搶奪智能家居等場景化應(yīng)用的語音交互入口篙议;
二是隨著 AI 技術(shù)的興起唾糯,智能音箱背后的語音及大數(shù)據(jù)技術(shù)怠硼,成為各大頂級 AI 公司訓練人工智能很好的硬件平臺。
定義 | 智能音箱的四要素及基本功能
在經(jīng)歷了 PC移怯、移動兩次信息化變革浪潮之后香璃,人類如今已經(jīng)跨入了人工智能時代,使得具備語音舟误、圖像等智能交互能力的智能助理逐漸成為主流葡秒。
電子芯片、麥克風器件 嵌溢、WIFI 模塊等硬件成本的降低眯牧,以及語音技術(shù)的逐漸成熟,為智能音箱的誕生奠定了底層基礎(chǔ)赖草;而伴隨著物聯(lián)網(wǎng)智能家居漸趨平臺化学少,以及各類音頻資源豐富,更便捷的交互方式亟待出現(xiàn)疚顷。
目前業(yè)內(nèi)對于智能音箱尚沒有一個統(tǒng)一的定義旱易,但魏強博士認為只要符合具備語音交互能力、可提供內(nèi)容服務(wù)腿堤、可提供互聯(lián)網(wǎng)服務(wù)以及可場景化智能家居的控制能力等四個要素的設(shè)備阀坏,就能稱之為智能音箱。
智能音箱的功能設(shè)定體現(xiàn)在四個方面:
- 有聲資源:主要為音樂笆檀、有聲新聞及有聲讀物忌堂,如百度音樂、喜馬拉雅 FM酗洒、今日頭條等士修;
- 智能家居:一是與大的智能家居平臺進行合作,如京東微聯(lián)樱衷、美的家居棋嘲、海爾 U+ 等;二是接入有自動化控制需求的單點設(shè)備矩桂,如飛利浦智能燈泡沸移;
- O2O 服務(wù):通過語音化的方式提供互聯(lián)網(wǎng)服務(wù),如京東購物侄榴、快遞查詢 雹锣、KFC 訂餐等;
- 生活助手:提供日常便捷的基本生活服務(wù)癞蚕,如設(shè)置鬧鐘蕊爵、日歷、備忘等桦山。
總的來看智能音箱是一個定位于家居場景的服務(wù)端口攒射,除了傳統(tǒng)手機具備的部分服務(wù)醋旦,還能提供一些以語音交互方式為主的新型服務(wù)。
由于語音智能尚處于剛剛起步階段匆篓,語音技能服務(wù)并不全面浑度,對此叮咚也推出了開發(fā)平臺,并提供完善的開發(fā)文檔鸦概,及明確語音交互設(shè)計核心原則箩张,幫助第三方(包括企業(yè)與個人開發(fā)者)開發(fā)更好的語音交互服務(wù)。
技術(shù) | 智能音箱不僅是單獨的個體窗市,更是技術(shù)+產(chǎn)品+服務(wù)的資源整合
一臺看似小小的智能音箱先慷,卻需要應(yīng)用到超過 600 個電子器件,近 100 家上下游供應(yīng)鏈合作廠商咨察,從研發(fā)到批量生產(chǎn)论熙,周期耗時數(shù)月甚至長達一年。
這其中不單單是語音核心技術(shù)的研發(fā)工作摄狱,還包括產(chǎn)品結(jié)構(gòu)的設(shè)計及服務(wù)資源的整合脓诡。
核心技術(shù)以麥克風陣列為例。目前市場上的麥克風陣列技術(shù)主要分兩大類:
一是波束成形技術(shù)媒役,即通過麥克風陣列劃分空間波束區(qū)域祝谚,選擇能量最大的波束進行喚醒識別;另一種則是 TDOA 技術(shù)酣衷,即通過計算聲音傳播到麥克風的時間差交惯,來計算出說話人的物理位置及角度。
在智能音箱的產(chǎn)品結(jié)構(gòu)設(shè)計上穿仪,則需要考慮到麥克風陣列(拾音設(shè)備)與揚聲器(發(fā)音設(shè)備)間的位置關(guān)系席爽、麥克風陣列板本身的柔性抗震設(shè)計及揚聲器的聲波平衡設(shè)計三個要素,以防止喇叭發(fā)聲帶動麥克風震動啊片,影響麥克風的拾音效果只锻。
而在服務(wù)層面,則是對基于語音交互能容的資源整合紫谷。例如音樂內(nèi)容齐饮,首先要對每首歌結(jié)構(gòu)化處理,打上如歌手碴里、年代沈矿、情感類型上真、適用場合一類的標簽咬腋,然后根據(jù)拾取的用戶語音指令判斷其意向內(nèi)容,進行個性化推薦睡互。
除了音箱本身根竿,音箱與其他設(shè)備的聯(lián)動也是一個重要因素陵像,例如與智能電視的視頻 APP 聯(lián)動后,可通過語音點播電視節(jié)目寇壳,減少用戶通過遙控器繁瑣的操作醒颖。
市場 | 國內(nèi)依然處于起步階段 ,WIFI 品類音箱增長最快
盡管已是群雄并起壳炎,但國內(nèi)的智能音箱依然處在逐漸從傳統(tǒng)的多媒體音箱向藍牙音箱和 Wi-Fi 音箱過渡的起步階段泞歉。
藍牙音箱占整體音箱市場 39% 市場份額,得益于客單價逐步降低及產(chǎn)品線不斷豐富等因素匿辩,目前正以 33% 的速度迅速增長腰耙。
相較而言 WIFI 音箱品類盡管占比較小,但增長速度最快: 2016 年銷量同比 2015 年增長 335%铲球,其中占據(jù)先發(fā)優(yōu)勢的叮咚音箱系列占比 WIFI 音箱品類 79% 的市場份額挺庞,位列 WIFI 類音箱細分市場第一。
根據(jù)叮咚音箱在京東商城的銷售數(shù)據(jù)稼病,主要的用戶層畫像體現(xiàn)出四個特點:
- 男性占四分之三选侨;
- 25- 45 歲為主力購買人群;
- 北上廣深為主然走;
- 白領(lǐng)及金領(lǐng)人士為主要消費人群援制。
這些特點體現(xiàn)出智能音箱消費者的兩個關(guān)鍵特質(zhì):購買力與興趣度。另一個數(shù)據(jù)很有意思丰刊,用戶群體的 47. 2% 集中在東部沿海省份隘谣,并且促銷敏感度高達 91%。
此前叮咚音箱供應(yīng)鏈負責人毛占偉也曾在深圳灣采訪中提到啄巧,在 618 及 雙 11 等促銷大節(jié)音箱的銷量會高很多寻歧。高度的價格敏感性也使得各音箱品牌商正在大力備戰(zhàn)即將到來的「雙 11」購物節(jié)。
問題與展望 | 國內(nèi)外差異大秩仆,各平臺間需聯(lián)通合作
整體來看码泛,各大品牌廠商基本都是采用依托本身優(yōu)勢,找到合適切入點進軍智能音箱市場的策略澄耍。
例如亞馬遜整合了十分全面的音樂內(nèi)容及電商能力噪珊,谷歌的強項在于搜索與數(shù)據(jù),蘋果關(guān)注優(yōu)質(zhì)的音樂服務(wù)齐莲,微軟積累多年的聊天數(shù)據(jù)則能提供更好的對話體驗……
國內(nèi)玩家同樣如此:
與硅谷玩家相比痢站,國內(nèi)的智能音箱行業(yè)還存在很多問題,例如用戶對智能音箱產(chǎn)品的認知薄弱选酗、有聲內(nèi)容良莠不齊阵难、語音技術(shù)識別率及響應(yīng)速度均需進一步優(yōu)化完善……
但其中最不可忽視的一點是:
亞馬遜、谷歌芒填、微軟呜叫、蘋果等硅谷巨頭空繁,均具備獨自完成音箱產(chǎn)業(yè)鏈資源整合的能力;國內(nèi)盡管也有大牌互聯(lián)網(wǎng)公司朱庆,但絕大部分商家產(chǎn)業(yè)鏈單一盛泡,只是占據(jù)技術(shù)、內(nèi)容等某一單項優(yōu)勢娱颊,無法形成全產(chǎn)業(yè)鏈布局傲诵。
總的來說,智能音箱目前國內(nèi)主要公司都在做箱硕,依托各自在資源掰吕、技術(shù)、供應(yīng)鏈颅痊、內(nèi)容各方面的優(yōu)勢殖熟,打造出各有特點的智能音箱產(chǎn)品,為智能音箱發(fā)展做出各自的貢獻斑响。但想要進一步打造好的智能音箱產(chǎn)品菱属,還需要需要各個平臺的聯(lián)合打通,提供更好的互聯(lián)網(wǎng)服務(wù)舰罚。
Q&A | 知友提問
在魏強博士的課程結(jié)束后纽门,我們接受到大量知友的踴躍提問,下面摘取了其中部分問題及回答:
1营罢、 魏總您好赏陵,請問 WIFI 與藍牙音箱比優(yōu)勢在哪里?
答:藍牙音箱是一種音樂播放設(shè)備饲漾,通過音樂源傳輸有聲內(nèi)容蝙搔,然后通過揚聲器播放出來;相較而言 考传,Wifi 傳輸帶寬更高吃型,能更高品質(zhì)傳輸音樂,能通過手機或其他音樂源設(shè)備傳輸僚楞,也可以直接連接音樂后臺勤晚,因此可以用于戶外場景。
2泉褐、 哪些智能音箱應(yīng)用或第三方智能硬件屬于高頻應(yīng)用產(chǎn)品赐写?
答:語音應(yīng)用中新聞類、音樂膜赃、天氣預(yù)報類比較常用挺邀,早晨使用頻率較高。第三方智能硬件中智能燈、智能插座悠夯、智能空調(diào)等用的比較多,智能家電設(shè)備由于普及率低躺坟,使用活躍度普遍不是非常高沦补。
3、 麥克風矩陣 6/8 麥與 2/4 麥比咪橙,哪個會是未來趨勢夕膀?
答:麥克風陣列遠場會優(yōu)先選用 6、8 麥克風陣列美侦,雙麥或四麥主要針對距離要求不高产舞,追求性價比的產(chǎn)品。
4菠剩、 智能音箱會不會考慮添加數(shù)據(jù)卡易猫,如 4G 流量卡或物聯(lián)網(wǎng)卡?
答:未來會考慮加上數(shù)據(jù)卡具壮。一是解決聯(lián)網(wǎng)需求准颓,特別是小白用戶,聯(lián)網(wǎng)操作多會讓他們覺得麻煩棺妓。加上 4G 卡后會使得應(yīng)用更簡單攘已,也能滿足戶外的應(yīng)用需求。
5怜跑、 怎么看語音技能市場样勃?
答:國內(nèi)剛剛起步,大多技能是平臺廠商自己開發(fā)提供性芬,希望更多開發(fā)者能夠一起參與開發(fā)過程峡眶,能針對不同的用戶需求,開發(fā)出用戶真正需要的語音應(yīng)用植锉。
深圳灣聯(lián)合知乎 Live 線上課程:又現(xiàn)音箱——對話智能音箱先行者幌陕,解讀語音交互產(chǎn)品的設(shè)計。歡迎各位朋友點閱查看圖文+音頻全程回顧汽煮!