還別說(shuō)扰藕,耳機(jī)鑲鉆,真好看芳撒!
國(guó)芯凌云:AI 芯片成功的關(guān)鍵在于調(diào)動(dòng)全行業(yè)積極性丨WARE 2018
從神經(jīng)網(wǎng)絡(luò)加速耸三、NPU 工具鏈、SoC 集成等多個(gè)角度解析一款 AI 芯片誕生背后的基本過(guò)程和邏輯捣炬。
在由深圳灣 WARE 2018 AI 芯片與應(yīng)用峰會(huì)上熊昌,杭州國(guó)芯人工智能事業(yè)部總經(jīng)理凌云從 AI 芯片被重視的背景、國(guó)芯如何做 AI 芯片以及 AI 芯片的應(yīng)用前景等方面做了分享湿酸。
凌云認(rèn)為婿屹,深度學(xué)習(xí)技術(shù)的突破是這一波人工智能浪潮的主要驅(qū)動(dòng)力。深度學(xué)習(xí)算法具有很高的通用性推溃,同時(shí)計(jì)算架構(gòu)又是統(tǒng)一的昂利,并且未來(lái)對(duì)算力的需求越來(lái)越大,這些因素綜合起來(lái)呼喚這專用 AI 芯片的到來(lái)铁坎。
凌云從神經(jīng)網(wǎng)絡(luò)加速蜂奸、NPU 工具鏈、SoC 集成等多個(gè)角度解析了一款 AI 芯片誕生背后的基本過(guò)程和邏輯硬萍。
關(guān)于 AI 芯片的前景扩所,凌云認(rèn)為核心還是大家的積極性和創(chuàng)造力能不能充分被調(diào)動(dòng)出來(lái)。目前襟铭,針對(duì)電視、故事機(jī)、白色家電等產(chǎn)品和場(chǎng)景寒砖,國(guó)芯也已經(jīng)面向行業(yè)準(zhǔn)備了包括語(yǔ)音電視赐劣、IoT、兒童機(jī)器人哩都、智能音箱等在內(nèi)的一系列解決方案魁兼。
以下是凌云在 WARE 2018 AI 芯片與應(yīng)用峰會(huì)演講及會(huì)后問(wèn)答實(shí)錄,由深圳灣整理發(fā)布漠嵌。
深度學(xué)習(xí)技術(shù)呼喚新一波 AI 芯片熱潮
我做芯片已經(jīng)差不多有十五年了咐汞。十五年前,芯片行業(yè)是一個(gè)很火熱的行業(yè)儒鹿。隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的興起化撕,芯片有很長(zhǎng)一段時(shí)間進(jìn)入一個(gè)挺冷的時(shí)期,或者說(shuō)跟大眾沒(méi)有什么關(guān)系约炎。我們現(xiàn)在看到這兩年突然之間芯片又變成一個(gè)很火熱的焦點(diǎn)植阴,這背后到底是什么呢?這是我想跟大家探討的第一個(gè)問(wèn)題圾浅,也就是為什么 AI 芯片現(xiàn)在火了掠手。
AI 芯片會(huì)火的根源首先是人工智能現(xiàn)在火了。
人工智能歷史上起起伏伏有很多輪狸捕,這一輪人工智能的核心是因?yàn)樯疃葘W(xué)習(xí)的突破和在各個(gè)領(lǐng)域的效果喷鸽。深度學(xué)習(xí)有什么特點(diǎn)呢?我認(rèn)為最大的優(yōu)勢(shì)灸拍,它是一個(gè)非常通用的方法做祝,可以用在很多很多地方,比如說(shuō)我們熟知的語(yǔ)音識(shí)別株搔、人臉識(shí)別剖淀,比如醫(yī)療領(lǐng)域的自動(dòng)診斷、手勢(shì)識(shí)別纤房、智能家居等各方面纵隔。我們說(shuō)深度學(xué)習(xí)是一個(gè)萬(wàn)能膏藥,只要掌握這一個(gè)技術(shù)炮姨,就可以應(yīng)用在各行各業(yè)里面捌刮。過(guò)去在各行各業(yè)都需要專業(yè)的科學(xué)家,這些科學(xué)家對(duì)這個(gè)行業(yè)有很多年積累才可以解決問(wèn)題舒岸,但是今天只要掌握了這個(gè)技術(shù)绅作,理論上你有數(shù)據(jù),都可以很快的解決各行各業(yè)的問(wèn)題蛾派。
深度學(xué)習(xí)依賴于兩個(gè)東西俄认,一是數(shù)據(jù)个少,二是它需要很大的計(jì)算力,不斷地循環(huán)反復(fù)的運(yùn)算和迭代眯杏。
有一個(gè)非常大的好處夜焦,深度學(xué)習(xí)里面用的神經(jīng)網(wǎng)絡(luò)的計(jì)算方法,雖然有各種變種岂贩,但是它的計(jì)算框架整體上是非常類似的茫经。也就是說(shuō),不管是 DNN萎津、RNN卸伞、LSRM 等各種神經(jīng)網(wǎng)絡(luò),它的模型計(jì)算是非常類似的锉屈。
綜合以上幾點(diǎn)荤傲,大家會(huì)發(fā)現(xiàn),既然這個(gè)算法是萬(wàn)能的部念,它的計(jì)算架構(gòu)又是統(tǒng)一的弃酌,而且未來(lái)我們對(duì)算力的需求越來(lái)越大。既然是這樣儡炼,為什么不做一個(gè)專用的芯片來(lái)解決這個(gè)問(wèn)題呢妓湘?所以大家看到Google 做了 TPU,很多互聯(lián)網(wǎng)公司乌询、算法公司都會(huì)把芯片放在一個(gè)很重要的地位榜贴,因?yàn)樗拇_有非常大的價(jià)值。
以上幾點(diǎn)妹田,希望通過(guò)我個(gè)人的觀點(diǎn)唬党,能夠幫大家了解AI芯片背后的邏輯,為什么現(xiàn)在它這么重要鬼佣。
一款 AI 芯片的基本邏輯
做 AI 芯片驶拱,第一步是做神經(jīng)網(wǎng)絡(luò)的加速。Google 做了一個(gè)東西叫 TPU晶衷,更多的人叫它 NPU蓝纲,也就是神經(jīng)網(wǎng)絡(luò)處理器。我們從 2016 年開始做神經(jīng)網(wǎng)絡(luò)處理器晌纫,第一版已經(jīng)量產(chǎn)在賣了税迷,我們內(nèi)部在做第二個(gè)版本。
NPU 說(shuō)起來(lái)很玄乎锹漱,其實(shí)內(nèi)在原理比較簡(jiǎn)本箭养,因?yàn)樯窠?jīng)網(wǎng)絡(luò)是高度并行的架構(gòu)。如果用 CPU 來(lái)跑哥牍,需要寫一個(gè)循環(huán)毕泌,不停地一遍一遍地跑喝检。我們做 NPU 就可以做并行化,比如說(shuō)做 64 路撼泛、128 路并行蛇耀,通過(guò)硬件和流水線的結(jié)構(gòu),可以把效率提升上來(lái)坎弯。
當(dāng)然,這里面有很多技巧和效率的問(wèn)題译暂,比如說(shuō)神經(jīng)網(wǎng)絡(luò)運(yùn)算的時(shí)候抠忘,一方面消耗計(jì)算力,另外一方面對(duì)內(nèi)存計(jì)算的帶寬要求很高外永。有一個(gè)技術(shù)很重要崎脉,我們叫做神經(jīng)網(wǎng)絡(luò)參數(shù)壓縮的技術(shù)。前兩天大家應(yīng)該看到國(guó)內(nèi)做壓縮最有名的一家公司剛剛被一家美國(guó)公司收購(gòu)了伯顶。在神經(jīng)網(wǎng)絡(luò)壓縮這個(gè)領(lǐng)域囚灼,國(guó)芯也有很多積累,我們?cè)诤竺娴暮芏嘈酒锩嬉矔?huì)把壓縮的優(yōu)勢(shì)發(fā)揮出來(lái)祭衩。
是否完全可編程是神經(jīng)網(wǎng)絡(luò)加速器和處理器基本區(qū)別
過(guò)去有很多公司做 NPU灶体,他們做的其實(shí)是神經(jīng)網(wǎng)絡(luò)加速器。神經(jīng)網(wǎng)絡(luò)加速器和處理器有什么區(qū)別掐暮?我認(rèn)為最大的區(qū)別在于是不是完全可編程蝎抽。有人質(zhì)疑硬件 NPU 是不是不夠靈活,這取決于架構(gòu)路克,如果完全可編程就很靈活樟结。
做完全可編程離不開一個(gè) NPU 的工具鏈,或者叫神經(jīng)網(wǎng)絡(luò)的編譯器精算。我們?cè)谶@方面做了非常多的工作瓢宦,我們現(xiàn)在的工具鏈可以做到和訓(xùn)練平臺(tái)對(duì)接,你在平臺(tái)上把程序編好灰羽,生成一個(gè)模型驮履,通過(guò)我們的編譯器,可以自動(dòng)轉(zhuǎn)到我們芯片上去跑谦趣。如果你做量化疲吸、壓縮,我們的工具鏈都可以幫助你做前鹅。
SoC 集成產(chǎn)品落地全鏈條
光有 NPU 也不夠摘悴,產(chǎn)品要落地是很長(zhǎng)的鏈條。大家做產(chǎn)品都知道舰绘,AI 交互涉及到的環(huán)節(jié)很多蹂喻,有輸入葱椭、輸出,語(yǔ)音和圖像輸入進(jìn)來(lái)以后需要做增強(qiáng)口四,語(yǔ)音要做降噪孵运,圖像要做 3D、動(dòng)態(tài)等等蔓彩,需要做很多東西治笨。傳統(tǒng)算法會(huì)用信號(hào)處理,現(xiàn)在也會(huì)做信號(hào)增強(qiáng)赤嚼,未來(lái)混合的框架會(huì)越來(lái)越多旷赖。信號(hào)處理完之后才可以做識(shí)別,比如語(yǔ)音識(shí)別更卒、圖像識(shí)別等孵。還需要業(yè)務(wù)邏輯,需要跑操作系統(tǒng)蹂空,跟云端交互俯萌,最后給用戶反饋。
這是一個(gè)復(fù)雜的鏈條上枕,要做芯片就需要把這些東西全部集成在一起咐熙。在芯片行業(yè)我們叫 SoC,把整個(gè)系統(tǒng)做到芯片里面辨萍,這才是真正可以落地的產(chǎn)品糖声。
我們?nèi)ツ晖瞥龅牡谝淮a(chǎn)品里面把語(yǔ)音麥克風(fēng)的通道 DSP、圖像的接口分瘦、前處理和 NPU蘸泻、CPU 全部集成在一顆芯片上,這就是我們的第一代芯片嘲玫,代號(hào)叫 GX8010悦施。
AI 芯片前景:被打開的 IoT 智能化市場(chǎng)
從 AI 這幾年的爆發(fā)來(lái)看,它的應(yīng)用做得好不好去团,核心還是大家的積極性和創(chuàng)造力能不能充分被調(diào)動(dòng)出來(lái)抡诞。
這個(gè)應(yīng)用肯定是要全行業(yè)一起來(lái)做。我認(rèn)為有兩件事情對(duì)整個(gè) AI 行業(yè)的幫助非常大:第一件事情土陪,AlphaGo 戰(zhàn)勝了李世石昼汗,戰(zhàn)勝了中國(guó)的圍棋選手,讓大家認(rèn)為人工智能已經(jīng)這么厲害了鬼雀,一下把大眾對(duì)人工智能的熱情喚起來(lái)了顷窒。第二件事情,也就是今天深圳灣的主題里面講的,通過(guò)大家對(duì)智能音箱的投入和銷售鞋吉,智能音箱對(duì)大眾起到非常大的宣傳和示范作用鸦做。過(guò)去我們認(rèn)為人工智能離我們很遠(yuǎn),但是今天我可花 99 塊錢買一個(gè)智能音箱放在家里谓着,我就發(fā)現(xiàn)原來(lái)人工智能可以已經(jīng)做到這樣泼诱,原來(lái)體驗(yàn)已經(jīng)可以做到這么好。
有了這個(gè)概念之后赊锚,做很多傳統(tǒng)電子產(chǎn)品的人治筒,他的腦子里面就會(huì)突然冒出很多想法,既然智能音箱可以做到這樣舷蒲,那我的產(chǎn)品是不是也可以這樣做矢炼,我原來(lái)的產(chǎn)品上是不是也可以加這種功能?所以在今年開始阿纤,我們看到越來(lái)越多行業(yè)用戶開始擁抱 AI、擁抱語(yǔ)音夷陋。
舉幾個(gè)典型的例子欠拾,比如說(shuō)電視。過(guò)去我們看電視都是用遙控器骗绕,但是當(dāng)你的電視變成 OTT藐窄、IPTV 之后,要用遙控器按鈕搜索一個(gè)電視節(jié)目變得異常困難酬土,電視機(jī)廠商就想到要用語(yǔ)音荆忍。前段時(shí)間有一個(gè)產(chǎn)品,通過(guò) USB 插到電視上撤缴,完全可以不用遙控器刹枉,遠(yuǎn)場(chǎng)進(jìn)行語(yǔ)音交互,坐在沙發(fā)上用很自然的方式跟電視交互屈呕,電視的很多空間一下就打開了微宝。
類似的例子非常多,應(yīng)該說(shuō)虎眨,AI 改變了交互和控制的模式蟋软,在很多 IoT 領(lǐng)域里面都能夠得到應(yīng)用。針對(duì)這些場(chǎng)景嗽桩,國(guó)芯也準(zhǔn)備了很多解決方案岳守,包括語(yǔ)音電視的方案、IoT的方案碌冶、兒童機(jī)器人的方案湿痢、智能音箱的方案。
嘉賓問(wèn)答
訪談嘉賓:SpeakIn COO 易鵬宇
云端 AI 芯片和端側(cè) AI 芯片的區(qū)別
易鵬宇:AI 需要算力扑庞、算法蒙袍,后面還有很多數(shù)據(jù)的支持俊卤,一個(gè) AI 芯片也許具有綜合的素質(zhì)能力會(huì)更好。國(guó)芯這邊做的芯片害幅,您覺得在處理算法消恍、算力、數(shù)據(jù)上以现,相比傳統(tǒng)的英偉達(dá)這種超強(qiáng)的芯片狠怨,對(duì) IoT 芯片能力的認(rèn)知是不是劃一個(gè)清晰的邊界?
凌云:云端與端側(cè) AI 芯片定義不一樣邑遏,云端要處理很多用戶的需求佣赖,性能越強(qiáng)越好,對(duì)單顆芯片的成本不敏感记盒,考慮的是整臺(tái)服務(wù)器或者整個(gè)部署的成本憎蛤,所以單顆芯片規(guī)模比較大。我們做的 AI 芯片跟功耗成本息息相關(guān)纪吮,按照應(yīng)用場(chǎng)景需要為原則來(lái)做俩檬。算力對(duì)芯片來(lái)說(shuō)就是部署的問(wèn)題,你需要部署很多碾盟,我就可以給你堆很多計(jì)算在里面棚辽,成本就會(huì)升高,就像一個(gè)玩具狗冰肴,我放了AlphaGo 的芯片進(jìn)去你就買不起了屈藐,所以端側(cè)一定要按照應(yīng)用場(chǎng)景出發(fā),跟云端比算力會(huì)低一些熙尉。
定制化芯片的投入產(chǎn)出衡量
易鵬宇:現(xiàn)在定制一個(gè)新的芯片联逻,發(fā)現(xiàn)基本上做的是從 0 到 1 很多東西要做,列出來(lái)時(shí)間很長(zhǎng)检痰、投入費(fèi)用很大∏餐祝現(xiàn)在看到的方案大部分基于通用的模組和芯片來(lái)做,但對(duì)我們來(lái)說(shuō)攀细,定制化的芯片價(jià)值更大箫踩,可以用在特殊的產(chǎn)品里面。這里面的投入要怎么衡量谭贪?
凌云:定制芯片一定有一個(gè)原則境钟,定制的東西一定要有足夠大的量來(lái)平攤成本。如果定制一個(gè)芯片俭识,量不夠大的話慨削,成本是無(wú)法收回的。你提到有一些私有化的需求,去定制的話缚态,時(shí)間周期肯定會(huì)比較長(zhǎng)磁椒。
芯片公司定義一款芯片的時(shí)候,通常都會(huì)盡可能覆蓋更多的應(yīng)用場(chǎng)景玫芦,其實(shí)你可以把這個(gè)需求告訴芯片公司浆熔,芯片公司會(huì)在合適的場(chǎng)景面考慮你的需求,覺得需求合理就可以把功能做進(jìn)去桥帆,這樣你不用支付太高的定制成本医增。當(dāng)然,你覺得這個(gè)市場(chǎng)巨大老虫,你有核心技術(shù)叶骨,那就可以砸錢定制,這個(gè)收益也很大祈匙。
易鵬宇:我們的芯片達(dá)到某個(gè)規(guī)模在是經(jīng)濟(jì)適用的忽刽,站在您的角度,到底多大規(guī)模算是經(jīng)濟(jì)適用的門檻夺欲?
凌云:我們覺得最好這款芯片能夠達(dá)到千萬(wàn)級(jí)的水平跪帝,我們覺得這才是比較有商業(yè)價(jià)值的。當(dāng)然洁闰,如果你要定制,我覺得至少是上百萬(wàn)的規(guī)模万细,這樣定制才會(huì)有一些意義扑眉。
AI 芯片如何進(jìn)行升級(jí)迭代
易鵬宇:我們都知道,芯片本身其實(shí)就是算法邏輯赖钞,我認(rèn)為腰素,只有把算法邏輯徹頭徹尾的在芯片里面優(yōu)化、定制化以后性能才是最高的雪营。在這種情況下弓千,算法在人工智能里面遇到一個(gè)問(wèn)題,就是它的更新迭代献起。所有人工智能都在快速自我學(xué)習(xí)和迭代洋访,但一旦做到芯片里就做死了,怎么解決迭代的問(wèn)題谴餐?
凌云:做芯片姻政,雖然物理的東西是做死的,但是架構(gòu)上可以想很多文章岂嗓,盡量讓硬件加速可以做成可編程的汁展,可以通過(guò)軟件去調(diào)動(dòng)各種資源,去靈活的運(yùn)用。比如說(shuō)我們的 NPU食绿,物理上是做死的侈咕,但是通過(guò)模塊、運(yùn)算單元的劃分和編譯器軟件的調(diào)度器紧,可以靈活的處理各種模型耀销,就是你的模型是可以變的,不是一定是做死的品洛。
當(dāng)然树姨,這里面也會(huì)存在算法可能產(chǎn)生了非常巨大變化的情況,導(dǎo)致我的架構(gòu)都不支持了桥状,這時(shí)候只能靠芯片本身迭代來(lái)做帽揪。芯片公司每年都會(huì)出新的芯片來(lái)支持更新的架構(gòu),至于當(dāng)前架構(gòu)上一些小的變化辅斟,我們做架構(gòu)本身的時(shí)候一定要把它兼容進(jìn)去转晰,通過(guò)軟件方式做到自動(dòng)適應(yīng)。