喜馬拉雅組局攢音箱狐胎,獵戶星空蓄勢搶入口,語音智能風口從何而來歌馍?
![Uploads%2farticles%2f11650%2falibabas jack ma could buy ac milan from silvio berlusconi](https://cdn.shenzhenware.com/uploads%2Farticles%2F11650%2Falibabas-jack-ma-could-buy-ac-milan-from-silvio-berlusconi.jpg)
從幕后走向臺前,這里是一些關于阿里 AI 音箱的靠譜猜想
看不懂的馬云冬竟,看得懂的阿里 AI 帝國。
今天一早泵殴,整個媒體圈就被阿里巴巴要推出智能音箱的消息炸開了鍋。
先是根據(jù)外媒科技網(wǎng)站 The Information 的爆料拼苍,阿里巴巴將在下周推出一款語音智能產(chǎn)品笑诅,這一產(chǎn)品很可能就是一款智能音箱。
之后各大媒體紛紛曬出發(fā)布會邀請函疮鲫,明顯與語音相關的主題詞吆你,以及那個按下去會說出「我在,你說」的人聲按鈕設計俊犯,就更加明顯的暗示了這一款新品的身份妇多。
![](https://cdn.shenzhenware.com/uploads%2Fpicture%2Ffile%2F12757%2F640.jpeg)
不過,邀請函抬頭上的「阿里人工智能實驗室」引起了我們的注意燕侠,此前并未有阿里官方介紹過這一實驗室的信息者祖。隨后,新浪微博上一個名為「阿里巴巴人工智能實驗室」的賬號今天上午 10 點發(fā)布了第一條微博绢彤。
![](https://cdn.shenzhenware.com/uploads%2Fpicture%2Ffile%2F12756%2F_____2017-06-30___2.41.43.png)
微博配了一條有趣的小視頻七问,暗示阿里即將發(fā)布的新品,動動嘴就可以詢問它天氣茫舶、鬧鐘械巡、星座等信息,還可以用來點播語音節(jié)目。
至此已經(jīng)基本可以敲定讥耗,這就是一款智能音箱有勾。
就月初,蘋果在開發(fā)者大會上推出了 智能音箱產(chǎn)品 HomePod?古程,標志著國外智能音箱正式進入大國紛爭的時代柠衅。而在不久前深圳灣(公眾號 ID:shenzhenware)分享的 國內(nèi)第一篇針對語音技能商店的深度報道 后面,很多眼尖的觀眾發(fā)現(xiàn)并沒有 BAT 的身影籍琳。
事實上直到我們發(fā)稿一周后菲宴,騰訊才正式推出騰訊云小微語音智能平臺。而此次阿里巴巴的新品若不出所料真是一款智能音箱趋急,就意味著中國以 BAT 為代表的互聯(lián)網(wǎng)公司也正式拉開在智能音箱領域的競爭帷幕喝峦。
而面對這樣一款幾乎可以確定了是智能音箱的產(chǎn)品,深圳灣也做出的一些大膽猜想:
猜想一:這款產(chǎn)品從技術(shù)布局上會對標亞馬遜 Echo呜达?
作為目前中國最大的電子商務和云計算公司谣蠢,不管是商業(yè)地位,還是業(yè)務架構(gòu)查近,阿里巴巴在中國的地位與亞馬遜在美國的地位十分相仿眉踱。而最近這兩家公司也正在近乎神同步的開始大規(guī)模并購線下商超,開始一種新的零售模式的探索霜威,在某種程度上來說谈喳,他們之間是一種既存在競爭,又在相互借鑒與學習的關系戈泼。
![](https://cdn.shenzhenware.com/uploads%2Fpicture%2Ffile%2F12758%2F518193-echo-dot-new-vs-old.jpg)
不同的是婿禽,亞馬遜除了電商業(yè)務,在硬件方面也有著卓越的表現(xiàn)大猛。內(nèi)置 Alexa 智能語音助手的亞馬遜 Echo 扭倾,目前銷量逼近千萬,獨占美國 70% 的智能音箱市場挽绩。而 Echo 的背后膛壹,更是整個以 Alexa 為中心締造的智能家居生態(tài)。
在互聯(lián)網(wǎng)之后唉堪,人們普遍認為下一幕發(fā)展紅利會是以語音交互為典型交互入口的物聯(lián)網(wǎng)時代模聋。對于諸如百度、搜狗等有搜索引擎基因的公司巨坊,以及以阿里與京東為代表的電商公司撬槽,這個入口顯得極為重要此改。
好在趾撵,亞馬遜 Echo 目前并不支持中文語音交互,暫時看起來也并無進軍中國市場的跡象。這就給了阿里巴巴很好的發(fā)展機會占调。鑒于兩家公司類似的地位與業(yè)務需求暂题,我們認為阿里對這款產(chǎn)品的戰(zhàn)略定位會是中國的 Echo。
猜想二:國內(nèi)的競爭將瞄準京東旗下的叮咚音箱究珊?
在世界級的巨頭公司中薪者,只有蘋果 HomePod 附帶的 Siri 支持中文交互。不過作為蘋果首款音箱設備 剿涮,HomePod 已經(jīng)巧妙地避開了亞馬遜與谷歌在智能家居領域的鋒芒言津,主打音樂體驗,再加上高昂的售價取试,即使這款產(chǎn)品進入中國悬槽,也一時不會成為主流的智能音箱消費產(chǎn)品。
![](https://cdn.shenzhenware.com/uploads%2Fpicture%2Ffile%2F12759%2F59250319Nffc06659.jpg)
這樣一來瞬浓,阿里在國內(nèi)最大的競爭對手就是目前國內(nèi)市場占比最大的叮咚音箱了初婆。叮咚音箱的背后是京東與科大訊飛,最近新發(fā)布了叮咚二代與叮咚 Top 兩款低價音箱猿棉,在性能上也較之前的音箱產(chǎn)品有了很大的改善磅叛。
京東是國內(nèi)電商體系最像亞馬遜的公司,從自建物流體系萨赁,到布局智能家居弊琴,再到聯(lián)合科大訊飛成立合資公司開發(fā)智能音箱,其發(fā)展的軌跡背后都能看到亞馬遜的影子杖爽。而近幾年京東發(fā)展迅猛访雪,今年 618 銷售戰(zhàn)績直逼去年天貓雙 11 的 1200億,市值也直逼百度掂林,大有改變 BAT 格局之勢臣缀。
這些跡象也讓阿里巴巴不得不重視這個對手,開始從各個業(yè)務線對京東進行狙擊泻帮。而此次的阿里語音產(chǎn)品新品的發(fā)布精置,與其說是與叮咚音箱的直面競爭,倒不如說是一場在智能語音領域锣杂,與京東進行的一場長線賽跑脂倦。
猜想三:這款產(chǎn)品可能出自阿里的哪個部門?
我們都知道阿里巴巴有個神秘的 iDST (數(shù)據(jù)科學技術(shù)研究院)部門元莫,成立之初的使命就是致力研發(fā)國際領先的大規(guī)模機器學習和語音赖阻、自然語言、圖像及視頻處理技術(shù)踱蠢,目前這個部門已經(jīng)挖來了很多在國際上頗有聲望的技術(shù)專家火欧,其中包括原亞馬遜資深主任科學家任小楓棋电。
![](https://cdn.shenzhenware.com/uploads%2Fpicture%2Ffile%2F12762%2F_____2017-06-30___6.19.53.png)
如果將阿里巴巴比作一個巨大的數(shù)據(jù)倉庫,那么 iDST 就是負責梳理苇侵、篩選赶盔、開發(fā)與應用這些數(shù)據(jù)的角色。而 iDST 旗下的智能語音交互團隊榆浓,也聚集了一批語音領域的大牛于未。
根據(jù) iDST 智能語音交互團隊總監(jiān)鄢志杰在一次采訪中的介紹,目前阿里巴巴已經(jīng)開發(fā)了一套智能語音交互平臺陡鹃,能作為交互鏈接入口為家用電器烘浦、機器人等智能設備提供天氣信息、音頻內(nèi)容及外賣叫車等一類服務萍鲸。而語音能力都會通過阿里云輸出谎倔。
雖然目前「阿里人工智能實驗室」與 iDST 之間的包容關系尚不明朗,但可以肯定的是這款產(chǎn)品與鄢志杰主管的語音技術(shù)有所關聯(lián)猿推,并且這些語音技術(shù)是由阿里巴巴自家開發(fā)的片习。
阿里巴巴是一家業(yè)務十分龐雜的公司,可能大部分人都是跟隨著馬云天馬行空的演講來了解阿里巴巴的進展情況蹬叭。但到目前為止藕咏,馬云卻很少在演講中提到自家的語音技術(shù)的發(fā)展情況。
那么秽五,阿里的語音技術(shù)實力究竟怎么樣孽查?我們還得從 iDST 的語音技術(shù)講起。
神秘的 iDST 智能語音團隊
iDST 智能語音交互團隊成立于 2014 年底坦喘,成立之后就一直緊鑼旗鼓的秘密招募人才盲再,表面行事卻十分低調(diào)。
根據(jù)阿里 iDST 技術(shù)社區(qū)官方的介紹瓣铣,目前這支團隊已經(jīng)在語音識別 答朋、語音合成、聲紋驗證 棠笑、自然語言理解及人機對話等核心技術(shù)方面完成了系統(tǒng)化的基礎建設與積累梦碗,并且已經(jīng)搭建起一套世界一流水平的智能語音交互系統(tǒng)。
![](https://cdn.shenzhenware.com/uploads%2Fpicture%2Ffile%2F12761%2F111.jpeg)
對于阿里巴巴內(nèi)部的同學來說 蓖救,iDST 智能語音交互團隊最閃亮的一次登場應該是在 2016 年 3 月的阿里云年會上洪规,阿里云 iDST 團隊的實時語音識別系統(tǒng)在現(xiàn)場演講分享環(huán)節(jié),實時挑戰(zhàn)世界速記比賽亞軍循捺、金牌速錄師姜毅斩例。而那時的阿里語音識別系統(tǒng),就已經(jīng)具有了如下的技術(shù)優(yōu)勢:
- 領先的聲學模型建模技術(shù) BLSTM :具有聲學模型建模的最佳準確性从橘,及更高的語音識別的準確率念赶,是世界上第一個在工業(yè)實時系統(tǒng)中部署 BLSTM 技術(shù)的團隊础钠。
- 領先的超大規(guī)模的語言模型建模技術(shù):借助阿里云的計算優(yōu)勢,使用了全網(wǎng)語料作為訓練數(shù)據(jù)晶乔,自主開發(fā)了基于 Max-Compute 的并行語言模型訓練工具 , 訓練產(chǎn)生了規(guī)模高達百億 ngram 條目的超大語言模型(模型文件大小高達數(shù)百 G 字節(jié))。
- 業(yè)內(nèi)領先的語音識別解碼技術(shù):語音識別解碼器是語音識別在工業(yè)界部署的核心問題 牺勾,iDST 的同學對語言模型的存貯表示以及和解碼器的核心算法以及跟語言模型的交互方式進行了深度的定制正罢,以達到在解碼過程中使用超大語言模型的目的。
- 模型的快速迭代和訓練:基于阿里云的基礎架構(gòu)驻民,構(gòu)建了 GPU 集群的多機并行深度學習系統(tǒng)用來完成聲學模型的訓練翻具。
- 高性能計算支持:在年會當天,使用的 HPC 是阿里云帶 GPU 加速的新一代高性能計算平臺回还,單節(jié)點計算性能高達 16 TFLOPS裆泳,加上算法優(yōu)化,保證了語音識別的實時響應速度柠硕。
如今工禾,一年過去了,積淀的技術(shù)終于落地要變成產(chǎn)品蝗柔。而作為阿里首款消費級 AI 產(chǎn)品闻葵,自然是引得萬眾矚目。不過在硬件之路上才開始剛剛開始布局的阿里癣丧,還有很長的路要走槽畔。
阿里的野心,遠不止智能語音
正如此前此前深圳灣解讀亞馬遜 Echo 背后的深意所提到的胁编,對于亞馬遜厢钧、阿里巴巴這樣體量的公司,靠賣硬件能賺取的利益嬉橙,無異于九牛一毛早直。他們在乎的,是以硬件作為載體市框,其背后以語音交互為中心的整個下一代智能生態(tài)莽鸿。
![](https://cdn.shenzhenware.com/uploads%2Fpicture%2Ffile%2F12763%2F222.jpg)
目前巨頭的紛紛入場,表面上看來智能音箱市場已經(jīng)形成了群雄逐鹿之勢拾给,其實才剛剛開始祥得。如果語音交互真的會是下一場革命性的交互方式,那么在此時迅速的補充人才架構(gòu)蒋得,搭建好基礎技術(shù)架構(gòu)级及,為下一波技術(shù)革命做準備才是明智之舉。
今年 3 月额衙,馬云在阿里巴巴技術(shù)峰會上首次重磅推出「NASA」計劃饮焦,聯(lián)合馬云提名的機器學習怕吴、芯片、IoT县踢、操作系統(tǒng)和生物識別五大核心技術(shù)转绷,建立面向未來 20 年的強大獨立的研發(fā)部門。這一立意宏大頗具太空感的署名計劃硼啤,在馬云心中议经,就是阿里巴巴要「構(gòu)建世界第五大經(jīng)濟體」的基石。
而在即將擔任人工智能核心團隊 iDST 副院長及首席科學家的任小楓看來 谴返,iDST 正是「阿里巴巴實現(xiàn) NASA 計劃的先鋒」煞肾。智能語音交互僅僅只是 iDST 旗下的一個分支方向,而此時肩負著阿里巴巴首款消費級人工智能落地的重任嗓袱,其重要性可見一斑籍救。
關于這次阿里的新品,深圳灣也會在即將舉辦的 WARE 2017語音智能平臺與應用峰會上進行進一步解讀渠抹。歡迎大家關注深圳灣的后續(xù)報道蝙昙。