小米的低價智能音箱斷了小團(tuán)隊們的后路幻妓?這名擁有 5 年行業(yè)經(jīng)驗的從業(yè)者表示「不用那么悲觀」

在先行者叮咚面前,小個子天貓精靈的耐撩指數(shù)能打幾分?| 深度測評
你們期待的天貓精靈與叮咚 A1 互撩的畫面來了……
「在國內(nèi)狮惜,做智能音箱的高诺,基本都拆過叮咚∧氪郏」
在上個月深圳灣舉辦的「WARE 2017 語音智能平臺與應(yīng)用峰會 第 II 季」的百箱爭鳴論壇中虱而,靈隆科技總經(jīng)理魏強(qiáng)這般笑稱道。雖然是一句玩笑話开泽,但不可否認(rèn)牡拇,叮咚在國內(nèi)的先行者地位。
在 2015 年穆律,靈隆科技有限公司推出智能音箱叮咚 A1惠呼,而其二代版本也將于近期上線。一周前峦耘,阿里旗下的智能音箱天貓精靈開售剔蹋,正式進(jìn)入國內(nèi)早已水深火熱的音箱市場。
作為國內(nèi)最知名的兩家電商公司辅髓,阿里巴巴與京東不僅在每年的雙 11 打的火熱泣崩,其戰(zhàn)線也開始逐漸向物聯(lián)網(wǎng)及人工智能推進(jìn)少梁,并延伸到當(dāng)下最火熱的硬件產(chǎn)品——智能音箱上。
天貓精靈這款音箱表現(xiàn)究竟如何律想?深圳灣(公眾號 ID:shenzhenware)選取了天貓精靈 X1 與叮咚 A1 兩款產(chǎn)品猎莲,進(jìn)行了深入的對比绍弟。

一技即、天貓精靈 X1+叮咚音箱 A1 對比評析
作為目前國內(nèi)僅有的兩款可購物音箱,天貓精靈與叮咚無論是從功能樟遣、渠道還是產(chǎn)品定位等角度都具有很強(qiáng)的可比性而叼。此次,深圳灣分別從外觀豹悬、語音葵陵、內(nèi)容等幾個角度深入體驗了這兩款音箱:
外觀
單從外表來看,天貓精靈通體為白+灰色設(shè)計瞻佛,外殼為膠質(zhì)材料脱篙,頂部有一個靜音按鍵,兩個音量調(diào)節(jié)觸控鍵伤柄,以及六個麥克風(fēng)音孔绊困。

而叮咚 A1 外殼則為金屬材質(zhì),因此箱體較為沉重适刀,外部采用噴漆工藝秤朗,色澤略暗;頂部有一個實體靜音按鍵笔喉,一個音樂播放/暫停鍵取视,兩個節(jié)目切換鍵,以及音量調(diào)節(jié)觸控線常挚。

當(dāng)兩款音箱分別被喚醒時作谭,均會出現(xiàn)一個與 Echo 類似的藍(lán)色光環(huán),不同的是叮咚在頂部奄毡,而天貓精靈在底部丢早;在調(diào)小音量時,叮咚的光環(huán)長度會變短秧倾,而天貓精靈光環(huán)亮度會變暗怨酝。

語音
天貓精靈使用自家 AliGenie 語音系統(tǒng)和聲紋識別技術(shù),采用思必馳的 6 麥克風(fēng)陣列技術(shù)那先,搭載聯(lián)發(fā)科智能語音芯片农猬;叮咚 A1 采用的則是科大訊飛的 7+1 麥克風(fēng)陣列及語音技術(shù),并搭載叮咚開放平臺售淡。
音質(zhì)上斤葱,由于叮咚 A1 采用的是一個低頻揚聲器加上 4 個全頻帶單元慷垮,而天貓精靈只有一個全頻揚聲器,因此在音質(zhì)體驗上叮咚音箱要更為細(xì)膩立體揍堕。
語音對話是智能音箱最為核心的技能料身,這方面我們進(jìn)行了以下幾個方面的詳細(xì)測試:
A、喚醒測試:分別采用了 0.5 米 衩茸、2 米 芹血、5 米三種不同距離進(jìn)行測試:
- 0.5 米距離,用同等程度低聲喚醒楞慈,二者不分伯仲幔烛,喚醒率均較高;
- 2 米距離囊蓝,用正常聲測試時饿悬,雖兩者均可正常喚醒,但叮咚喚醒率略高于天貓精靈聚霜;
- 5 米距離狡恬,兩者均需提高音量才能保證喚醒,這一環(huán)節(jié)叮咚則明顯強(qiáng)于天貓精靈蝎宇,這其中或許也有其口語化喚醒詞的一份功勞弟劲。

B夫啊、語義識別測試 :TTS 是叮咚的強(qiáng)項函卒,在語義識別準(zhǔn)確率上叮咚 A1 也明顯強(qiáng)于天貓精靈。
例如撇眯,對叮咚音箱說「上山打老虎」报嵌,叮咚音箱能正確識別并播放同名音頻內(nèi)容,天貓精靈則推薦了一首毫不相關(guān)的歌曲熊榛;而改為「請播放上山打老虎」后锚国,才能正確播放歌曲。

C玄坦、降噪測試:在用同等音量的音頻進(jìn)行干擾時血筑,用略高于噪音的音量與之對話,叮咚的處理方式是抓取大音量關(guān)鍵詞煎楣,例如「打車」豺总;而天貓精靈會不斷嘗試識別所有聽到的內(nèi)容。因此在這一點上择懂,叮咚略優(yōu)于天貓精靈喻喳。
D、多輪對話:叮咚可通過 APP 設(shè)置 15s 到 5 min 時長的多輪對話(AIUI)困曙,設(shè)置后便可免喚醒對話表伦,而天貓精靈則暫時不支持多輪對話谦去。

E、聲紋識別:正常對話情景下天貓精靈能準(zhǔn)確識別被記錄過的聲紋蹦哼,而在同一個人故意變聲(包括用尖銳鳄哭、低沉的嗓音)時,則容易識別失敗纲熏。叮咚則無此功能妆丘。
內(nèi)容
叮咚的音頻內(nèi)容比較豐富,分類較為詳細(xì)赤套,主要接入的內(nèi)容提供商有百度音樂飘痛、咪咕音樂珊膜、喜馬拉雅 FM 等容握。
而剛剛出道不過兩個月的天貓精靈雖也接入了蝦米音樂、喜馬拉雅等內(nèi)容车柠,但在內(nèi)容豐富度及分類上則還需要繼續(xù)努力剔氏。

從上圖中可看出叮咚的內(nèi)容資源比天貓精靈更豐富有序。在交互體驗上竹祷,叮咚支持語音與 APP 兩種方式點播內(nèi)容谈跛,而天貓精靈只能通過語音的方式進(jìn)行點播。天貓精靈的 APP 中能直接看到使用者與音箱對話的文字內(nèi)容塑陵,叮咚則不可以感憾。
不過從應(yīng)用的角度來看,天貓精靈與叮咚均屬于功能型智能音箱令花,對于帶有關(guān)鍵字的指令性任務(wù)均有著不錯的響應(yīng)阻桅。而當(dāng)你想在無聊時,像與 Siri 或若琪聊天那樣與它進(jìn)行一場玩笑調(diào)侃式聊天兼都,則顯得很無趣嫂沉。
例如分別對叮咚與天貓精靈說「我餓了」,叮咚會說「你可以搜索附近的美食」扮碧,天貓精靈會說「我可以幫你點外賣」趟章。而像對話式音箱,例如若琪慎王,則會回答你「可是我不餓呀」蚓土,或是「看著你的大腿就不餓了」。

二赖淤、核心功能體驗:購物與智能家居
作為兩款電商背景下誕生的智能音箱蜀漆,天貓精靈與叮咚有著相似的營銷渠道、產(chǎn)品定位漫蛔。目前來看嗜愈,叮咚主打內(nèi)容與智能家居旧蛾,而在接入了京東商城及中通快遞等服務(wù)后,也開始有了購物與快遞查詢功能蠕嫁。
而天貓精靈則一開始就推出了聲紋購這一殺手锏锨天,是中文語境下首款能通過聲紋實現(xiàn)付款購物的智能音箱。此外剃毒,天貓精靈也正在快速擴(kuò)充內(nèi)容體系與智能家居陣容病袄。
接下來分別從購物與智能家居兩個角度評析天貓精靈與叮咚兩款產(chǎn)品:
購物
得益于語音識別的高準(zhǔn)確率,叮咚能比較準(zhǔn)確地根據(jù)關(guān)鍵詞找到對應(yīng)的商品赘阀,可放入購物車或直接下單(僅支持到付)益缠。但由于沒有聲紋識別功能,意味著任何人都可以語音下單基公。如果擔(dān)心家里的「熊孩子」會瞎買幅慌,則意味著每次購?fù)晡锖蠖夹枰ㄟ^手機(jī) APP 關(guān)閉購物服務(wù)。
購物方面天貓精靈的優(yōu)勢則很明顯轰豆,在錄入聲紋后胰伍,用戶能通過特定人的聲紋驗證完成購物,同時也能為特定的手機(jī)號碼充值話費酸休,這點的確是比叮咚安全又方便很多骂租。但對于商品名稱的區(qū)分能力則有待加強(qiáng),例如對它說「我的購物車?yán)镉惺裁础?它會理解成是想要買購物車一類的商品斑司。

另外渗饮,從購物范圍來看,叮咚支持京東平臺的所有品類的商品購買宿刮,而天貓精靈目前的購物范圍只是局限于天貓超市互站。例如你說要買一雙運動鞋,京東會推薦一款某品牌跑鞋糙置,而天貓精靈則會說「沒有找到你想要的」云茸。
智能家居
阿里與京東都已在不同程度上布局了智能家居。
早在 2015 年 4 月谤饭,阿里巴巴成立了智能生活事業(yè)部标捺,整合了電商銷售資源、還集成了云端數(shù)據(jù)服務(wù)揉抵、內(nèi)容平臺亡容,以全面支持阿里智能產(chǎn)品的推進(jìn)。
京東則在 2015 年與科大訊飛合資成立靈隆科技開始布局智能音箱冤今, 2016 年發(fā)布京東微聯(lián)闺兢,開始聯(lián)合各大家電廠商打造智能家居生態(tài)。
目前天貓精靈支持阿里智能與 BroadLink 兩個智能平臺的接入:


叮咚的定位就是一款智能家居中樞產(chǎn)品,目前能支持京東微聯(lián)屋谭、美的家居脚囊、米家旗下智米等兩千多種設(shè)備。叮咚 APP 上有支持的智能產(chǎn)品設(shè)備列表桐磁,點開后直接會引流到京東商城的購物頁面悔耘。

三、技術(shù)解析:叮咚語音識別更勝一籌我擂,聲紋購是阿里的殺手锏
關(guān)于天貓精靈與叮咚各自的技術(shù)優(yōu)勢衬以,阿里人工智能實驗室負(fù)責(zé)人淺雪也曾發(fā)表過意見:科大訊飛的技術(shù)偏重語音識別,而 AliGenie 的強(qiáng)項在語義理解校摩。不同的技術(shù)基因決定了不同的產(chǎn)品體驗看峻,通過上面的測試我們也能感受到:叮咚在內(nèi)容搜索上更加精準(zhǔn),而天貓精靈的購物體驗更佳衙吩。
那么這種區(qū)別是怎樣造成的呢互妓?我們先來了解一下智能音箱包含了哪些語音技術(shù)。
智能交互的三個技術(shù)層次
當(dāng)一個產(chǎn)品經(jīng)理在規(guī)劃產(chǎn)品中的語音功能時分井,他需要考慮的絕不僅僅是語音識別车猬,還包括其背后的智能交互霉猛。概括起來尺锚,表面上看到的智能交互,背后實際上包含三個層次的技術(shù):語音技術(shù)惜浅、智能化技術(shù)瘫辩、大數(shù)據(jù)技術(shù)。
語音技術(shù):包括語音識別(ASR)坛悉、語音合成(TTS)伐厌、聲紋識別和認(rèn)證、情感識別等裸影,這是一個將語音轉(zhuǎn)化成文字挣轨,并能識別其中包含的語言、情感等信息的過程轩猩。

語義技術(shù):包含自然語言理解(NLU)卷扮、多輪對話管理、跨領(lǐng)域?qū)υ挼燃夹g(shù)均践,是一個理解用戶意圖晤锹、感知場景信息,并根據(jù)用戶過往積累的行為數(shù)據(jù)做出針對性決策的過程彤委。
大數(shù)據(jù)技術(shù):包含各種垂直領(lǐng)域(天氣鞭铆、航班、餐館…)的數(shù)據(jù)服務(wù)焦影,基于知識圖譜的信息問答车遂,垂直或通用領(lǐng)域的信息搜索封断,以及大規(guī)模機(jī)器學(xué)習(xí)模型的訓(xùn)練等技術(shù)。
語音技術(shù)廠商的兩大陣營
關(guān)于智能語音技術(shù)的廠商舶担,目前分為兩大陣營:一類是平臺廠商澄港,如科大訊飛、百度柄沮、思必馳等回梧,以方案商的角色將語音技術(shù)賦能到合作廠商的音箱;另一類就是自研技術(shù)廠商祖搓,如若琪狱意、阿里,并且同時也都推出了自家的智能音箱拯欧。
叮咚背后的科大訊飛在智能語音領(lǐng)域已經(jīng)沉淀了 18 年详囤,背靠中科院、中國科學(xué)技術(shù)大學(xué)這些科研機(jī)構(gòu)镐作,具有強(qiáng)大的人才及技術(shù)資源吸收能力藏姐,是當(dāng)下國內(nèi)智能語音領(lǐng)域綜合實力最強(qiáng)的企業(yè)。
強(qiáng)大的科研背景決定了科大訊飛在語音識別该贾、語音合成等基礎(chǔ)研究領(lǐng)域具有雄厚的實力羔杨。站在了「巨人」的肩膀上,叮咚的語音識別能力自然優(yōu)秀杨蛋。
相較之下兜材,阿里巴巴在語音領(lǐng)域的布局則晚了很多,到 2014 年才成立了一支語音交互技術(shù)團(tuán)隊逞力,起初也只是為阿里巴巴集團(tuán)以及生態(tài)圈中小企業(yè)提供智能語音交互服務(wù)曙寡。
但阿里是何等厲害的角色,在不到三年的時間里就迅速吸收了前南洋理工大學(xué)教授王剛等一大批海歸技術(shù)專家寇荧,并秘密籌建了人工智能實驗室举庶。
阿里的「決策引擎」及聲紋購
淺雪提到的語義理解,其核心體現(xiàn)在天貓精靈的 「決策引擎」機(jī)制揩抡,通俗來講就是在理解了上下文意思后户侥,判斷應(yīng)該啟動哪一模塊響應(yīng),并給出最終判斷捅膘。這一機(jī)制最常用在購物環(huán)節(jié)添祸,系統(tǒng)會根據(jù)判斷推薦一個最優(yōu)結(jié)果給到用戶。
而另一個阿里獨有的殺手锏寻仗,便是阿里自研的聲紋購功能刃泌。下圖展示了聲紋識別技術(shù)的原理:

原定于今年 8 月上市的叮咚二代將成為靈隆科技首款攜帶聲紋識別功能的智能音箱,但其聲紋技術(shù)主要用于個性化的內(nèi)容服務(wù),暫時不會支持聲紋購物耙替。而阿里自研的聲紋購將在未來一段時間內(nèi)成為天貓精靈的競爭壁壘亚侠。
四、競爭廠商分析:三大派系混戰(zhàn)已成一片紅海俗扇,有能力構(gòu)筑服務(wù)生態(tài)者才是最后贏家
其實在智能音箱這條賽道上硝烂,中國公司的反應(yīng)的并不比國外慢。
早在 2014 年铜幽,國內(nèi)就涌現(xiàn)出一批智能音箱「拓荒者」滞谢,并出現(xiàn)了國內(nèi)首款智能音箱「小智」,比亞馬遜 Echo 的上市還要早半年除抛。
Echo 的問世狮杨,使得一直在業(yè)務(wù)布局層面對標(biāo)亞馬遜的京東意識到語音智能可能會成為智能家居的一個新的突破口,便火速與科大訊飛合資成立了靈隆科技到忽,并在 2015 年 6 月發(fā)布了第一款智能音箱叮咚 A1橄教。
靈隆科技總經(jīng)理魏強(qiáng)曾在深圳灣采訪中提到,京東想要完成在智能家居硬件層面的布局喘漏,而主營 B 端業(yè)務(wù)的科大訊飛也一直想要做一款家庭交互硬件產(chǎn)品护蝶,進(jìn)一步拓寬 C 端市場,于是雙方在幾次會議后一拍即合成立了合資公司翩迈。
智能音箱江湖的三大派系
從拓荒者出現(xiàn)持灰,經(jīng)歷了兩年的積淀期,在 2017 年智能音箱市場終于迎來了全面爆發(fā)帽馋。國內(nèi)先后涌入了聯(lián)想搅方、騰訊、阿里绽族、小米、百度等一批實力強(qiáng)勁的互聯(lián)網(wǎng)廠商衩藤,以及上百家傳統(tǒng)音箱方案商與創(chuàng)業(yè)公司吧慢。
縱觀當(dāng)下國內(nèi)的智能音箱廠商,大致可以分為互聯(lián)網(wǎng)功能型音箱赏表、內(nèi)容 IP 音箱检诗,以及傳統(tǒng)音箱三大派系。
- 功能型音箱以互聯(lián)網(wǎng)廠商為主瓢剿,例如天貓精靈逢慌、叮咚均歸屬電商旗下,其走的是類似 Echo 式的購物+智能家居路線间狂;
- 內(nèi)容音箱廠商如喜馬拉雅攻泼、酷狗,它們沒有自研語音技術(shù)及硬件基礎(chǔ),但占有獨特的 IP 資源忙菠,這類廠商目標(biāo)群體明確何鸡,也更加接近用戶的實際需求;
- 傳統(tǒng)音箱廠商則有著多年的硬件積淀及渠道資源牛欢,他們傾向于以合作的形式跨進(jìn)人工智能這道門檻骡男,例如貓王與 DuerOS,漫步者與阿里巴巴傍睹。
語音智能生態(tài)才是核心
上面提到的三類廠商定位均很明確隔盛,但與內(nèi)容廠商的單線突破,與已有用戶基礎(chǔ)的傳統(tǒng)廠商相比拾稳,阿里與京東面對的挑戰(zhàn)骚亿,則是如何依靠電商本身多樣化的服務(wù)生態(tài),打造以購物+家居為核心的完整服務(wù)體系熊赖。
這也是一條亞馬遜正在踐行的道路来屠,盡管 Echo 的銷售量已經(jīng)突破千萬臺,但亞馬遜依舊在馬不停蹄地打造以 Alexa 為核心的智能語音生態(tài)震鹉。據(jù)統(tǒng)計俱笛,Alexa 已經(jīng)擁有超過 1.5 萬項語音技能,賦能給了超過 7000 家硬件廠商传趾,這才是 Echo 真正的競爭力所在迎膜。

一個完整的語音生態(tài)不僅僅包含前端的語音交互技術(shù)磕仅、硬件方案,更包含后端完整的語音技能商店簸呈、強(qiáng)大的云端數(shù)據(jù)處理能力榕订,以及開放給各方硬件廠商及個人開發(fā)者的的開放平臺。
眼下叮咚推已經(jīng)出了叮咚開放平臺蜕便,并接入了幾十家第三方應(yīng)用商劫恒,并將聯(lián)合一些平臺廠商合作開發(fā)更多技能;阿里也即將于年底推出 Aligenie 開發(fā)者平臺轿腺,進(jìn)一步豐富其語音服務(wù)生態(tài)两嘴。
雖然技能數(shù)量遠(yuǎn)遠(yuǎn)不及 Alexa ,但作為中國最具資源整合力的生態(tài)型公司中的佼佼者族壳,阿里與京東會是這場長跑競賽中不可小視的種子選手憔辫。
五、結(jié)語:烈火炙烤之下更需深思
對于阿里與京東這樣的長跑選手來說仿荆,體力好贰您、彈藥足坏平,他們在布局一個新領(lǐng)域時考慮更多的不是當(dāng)下,而是未來枉圃。相較之下功茴,一些中小型創(chuàng)業(yè)公司的日子則會辛苦許多。
最近在訪談一位早期做智能音箱公司的聯(lián)合創(chuàng)始人時孽亲,對方表示坎穿,由于國內(nèi)不成熟的市場環(huán)境,以及資金與技術(shù)資源的缺乏返劲,使得這樣一家頗具前瞻意識的創(chuàng)業(yè)公司沒能走到最后玲昧。如今這家公司的初始團(tuán)隊已經(jīng)轉(zhuǎn)型開始做語義技能生態(tài)的構(gòu)建,開始了新一輪的征程篮绿。
智能音箱會不會真的成為下一代交互入口孵延,我們尚不能判斷。但可以預(yù)見的是亲配,眼下巨頭相繼涌入的局面尘应,會使得人才與硬件資源迅速向大公司靠攏,行業(yè)燒錢的速度也會加快吼虎,那些中小型創(chuàng)業(yè)公司也將面臨更多的壓力犬钢。當(dāng)下市場確如烈火般炙熱,但從業(yè)者也更需多一點深思思灰。