Uploads%2farticles%2f11766%2fai chips teaser
|
2017-09-01

從 GPU、FPGA 到 ASIC本辐,后摩爾定律時(shí)代下 AI 芯片領(lǐng)域會(huì)產(chǎn)生哪些獨(dú)角獸公司桥帆?

雖然 IC 產(chǎn)業(yè)整體落后于美國(guó),但在 AI 領(lǐng)域國(guó)內(nèi)仍有彎道超車的機(jī)會(huì)慎皱。

AI 芯片作為上游產(chǎn)業(yè)以及人工智能的硬件基礎(chǔ)祈匙,有著很高的技術(shù)壁壘,同時(shí)也有著巨大的產(chǎn)業(yè)價(jià)值和戰(zhàn)略地位天揖。從近期 IC 行業(yè)新聞中可看出菊卷,不少科技公司已經(jīng)開(kāi)始暗自布局 AI 芯片產(chǎn)業(yè),甚至已經(jīng)取得了一定的成果宝剖。

兩周前,孵化自中科院計(jì)算所的 AI 芯片創(chuàng)業(yè)公司寒武紀(jì)完成一億美元 A 輪融資歉甚,由國(guó)投創(chuàng)業(yè)(A輪領(lǐng)投方)万细,阿里巴巴創(chuàng)投、聯(lián)想創(chuàng)投纸泄、國(guó)科投資赖钞、中科圖靈、元禾原點(diǎn)(天使輪領(lǐng)投方)聘裁、涌鏵投資(天使輪投資方)聯(lián)合投資雪营。

8 月 29 日,英特爾推出新一代視覺(jué)處理芯片(VPU) Myriad X 衡便。Myriad X 是全球第一個(gè)配備專用神經(jīng)網(wǎng)絡(luò)計(jì)算引擎的芯片上系統(tǒng)芯片(SoC)献起,據(jù)悉,該芯片可能會(huì)用于無(wú)人機(jī)镣陕、機(jī)器人谴餐、自動(dòng)駕駛等新興領(lǐng)域上。

從華為官方 Twitter 放出的消息來(lái)看呆抑,華為很可能在 AI 芯片上有所動(dòng)作

華為也將于 9 月 2 日岂嗓,在 IFA 2017 展會(huì)上推出 AI 芯片,據(jù)說(shuō)這塊 AI 芯片就是打算在九月底發(fā)布的麒麟 970鹊碍,并且該芯片會(huì)用在華為 Mate 10 手機(jī)中厌殉。

另外食绿,據(jù)知名數(shù)碼博主孫昌旭爆料,目前高通驍龍 800 與 600 平臺(tái)可以通過(guò)軟件升級(jí)支持神經(jīng)網(wǎng)絡(luò)計(jì)算公罕。

......

在傳統(tǒng)馮諾依曼結(jié)構(gòu)中器紧,CPU 每執(zhí)行一條指令就需要從存儲(chǔ)器中讀取數(shù)據(jù)。在人工智能環(huán)境下熏兄,數(shù)據(jù)爆炸式增長(zhǎng)品洛,而內(nèi)存讀取速度有限的情況下,CPU 大量的功耗就將花費(fèi)在數(shù)據(jù)的讀取上摩桶,從而限制住處理器的性能桥状。

所以在人工智能場(chǎng)景下,芯片應(yīng)該具有更加有效且龐大的計(jì)算能力硝清,以應(yīng)對(duì)人工神經(jīng)網(wǎng)絡(luò)運(yùn)算所帶來(lái)的海量數(shù)據(jù)辅斟,所以才會(huì)有如此多的科技公司熱衷于研發(fā) AI 芯片。

為了應(yīng)對(duì)不同 AI 應(yīng)用場(chǎng)景下的需求芦拿,目前 AI 芯片領(lǐng)域分為幾個(gè)流派士飒,主要有以下幾種:

并行計(jì)算能力和功耗一樣高的 GPU

GPU 通常用在 PC、工作站蔗崎、游戲機(jī)酵幕、智能手機(jī)等數(shù)碼設(shè)備上,用于做視頻或者圖形的處理缓苛。在進(jìn)行圖像處理時(shí)芳撒,每個(gè)像素點(diǎn)都需要被運(yùn)算,這是一個(gè)相當(dāng)大的數(shù)據(jù)未桥,而 GPU 強(qiáng)大的并行計(jì)算能力能很好地滿足計(jì)算需求笔刹。

通常來(lái)講,神經(jīng)系統(tǒng)網(wǎng)絡(luò)的深度越深冬耿,需要的訓(xùn)練時(shí)間就越長(zhǎng)舌菜,若采用傳統(tǒng)串行運(yùn)算的 CPU 來(lái)訓(xùn)練的話,可能要花數(shù)月亦镶,甚至數(shù)年的時(shí)間日月。而 GPU 的控制相對(duì)簡(jiǎn)單,內(nèi)部大部分的晶體管可以組成各類專用電路缤骨、多條流水線山孔,使得 GPU 的計(jì)算速度遠(yuǎn)高于 CPU,并擁有了更加強(qiáng)大的浮點(diǎn)運(yùn)算能力荷憋,從而可以緩解深度學(xué)習(xí)算法的訓(xùn)練難題台颠,釋放人工智能的潛能。這也是為什么 GPU 成為最流行的 AI 芯片的原因。

從 CPU 和 GPU 內(nèi)部結(jié)構(gòu)來(lái)看串前,CPU 結(jié)構(gòu)復(fù)雜瘫里,GPU 結(jié)構(gòu)相對(duì)簡(jiǎn)單,沒(méi)有 Cache荡碾,運(yùn)算單元眾多

英偉達(dá)作為 GPU 巨頭谨读,占據(jù)了七成的 GPU 市場(chǎng)份額。過(guò)去一年里英偉達(dá)已經(jīng)參與了超過(guò) 4 萬(wàn)家公司和 50 萬(wàn)名開(kāi)發(fā)者對(duì)神經(jīng)網(wǎng)絡(luò)應(yīng)用的研究坛吁,這也讓英偉達(dá)的股價(jià)在過(guò)去一年的時(shí)間里瘋漲了 300%劳殖。在今年的 GTC 上,英偉達(dá) CEO 黃仁勛沒(méi)有一句提到游戲拨脉,滿嘴都是「AI」和「深度學(xué)習(xí)」哆姻,他表示:「我們要在后摩爾定律時(shí)代找到出路,而 GPU 的快速崛起可以驅(qū)動(dòng)人工智能的革命玫膀∶В」

為了讓自家的 GPU 更加滿足 AI 計(jì)算需求,黃仁勛宣布推出了一款專為 AI 和高性能計(jì)算打造的 GPU 架構(gòu) Volta帖旨。除了加強(qiáng) GPU 架構(gòu)箕昭,Volta 還增加了 640 個(gè)新的 Tensor 單元,與標(biāo)準(zhǔn) CUDA 核心配合使用解阅,峰值性能達(dá)到 120TFLOPS/s落竹。黃仁勛說(shuō),英偉達(dá)動(dòng)用了超過(guò) 7000 名工程師货抄,并花費(fèi)了 3 年的時(shí)間筋量,才打造出了 Volta,足以顯示英偉達(dá)深耕 AI 領(lǐng)域的決心碉熄。

但問(wèn)題是,GPU 方案的功耗長(zhǎng)期居高不下肋拔,英偉達(dá)高端顯卡的功耗動(dòng)輒 200W +锈津,一旦大量開(kāi)啟,在散熱一事上就會(huì)產(chǎn)生很多問(wèn)題 凉蜂,黃仁勛「核彈教父」的「美譽(yù)」也是這樣來(lái)的琼梆。另外,GPU 的價(jià)格問(wèn)題窿吩,也是限制其在 AI 領(lǐng)域發(fā)展的重要因素茎杂。

「核彈教父」黃仁勛

可重新定義內(nèi)部電路連接的 FPGA

GPU 能夠并行處理海量的數(shù)據(jù),因此其內(nèi)部架構(gòu)必須十分通用纫雁,這也就是說(shuō)煌往,它很難針對(duì)某個(gè)領(lǐng)域進(jìn)行特殊優(yōu)化。而日新月異的行業(yè)要求芯片能夠處理新類型的計(jì)算任務(wù)。此時(shí)沉寂許久刽脖,硬件體系可以重構(gòu)的 FPGA 重新回歸人們的視線羞海。

FPGA 芯片內(nèi)部集成大量的基本的門電路,開(kāi)發(fā)者可通 Verilog曲管、VHDL 等硬件描述語(yǔ)言按照自己的需求重新定義內(nèi)部門電路的連接却邓,用更加通俗的話來(lái)講,F(xiàn)PGA 像是一種「萬(wàn)能芯片」院水。

不同于 GPU 的運(yùn)行原理腊徙,F(xiàn)PGA 是以門電路直接進(jìn)行運(yùn)算,硬件描述語(yǔ)言在執(zhí)行時(shí)會(huì)被翻譯成電路檬某,所以在運(yùn)算速度和功耗上撬腾,F(xiàn)PGA 具有很大的優(yōu)勢(shì)。由于 FPGA 低延遲橙喘、低功耗的特性时鸵,近年來(lái),微軟厅瞎、百度等公司在自家的數(shù)據(jù)中心里大量部署 FPGA饰潜,詳細(xì)信息可參考深圳灣的文章『CPU + GPU 搞不定的機(jī)器學(xué)習(xí)問(wèn)題,微軟用 FPGA 解決』和簸,本文不再贅述彭雾。

FPGA 行業(yè) 90% 的市場(chǎng)份額都被賽靈思  Altera 所占領(lǐng)(后者已被英特爾以 167 億美金的價(jià)格收購(gòu)),總體來(lái)講國(guó)內(nèi) FPGA 水平較弱锁保,F(xiàn)PGA 從硬件到軟件的研發(fā)流程需要長(zhǎng)期的積累薯酝,但已有國(guó)內(nèi)的初創(chuàng)公司用 FPGA 搭建神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)方案,比如深鑒科技爽柒。

深鑒科技的主要團(tuán)隊(duì)

深鑒科技(DeePhi Tech)的團(tuán)隊(duì)成員主要來(lái)自清華大學(xué)和斯坦福大學(xué)吴菠,專注于深度學(xué)習(xí)處理器與編譯器技術(shù)。旗下研發(fā)的 ESE 語(yǔ)音能識(shí)別引擎技術(shù)在 FPGA 領(lǐng)域頂級(jí)會(huì)議 FPGA 2017 上獲得了最佳論文獎(jiǎng)浩村。該方案聚焦于使用 LSTM 進(jìn)行語(yǔ)音識(shí)別的場(chǎng)景做葵,結(jié)合獨(dú)家的深度壓縮(Deep Compression)技術(shù)、專用編輯器以及 ESE 專用處理架構(gòu)心墅,在中端的 FPGA 上可以取得 Pascal Titan X GPU 高 3 倍的性能酿矢,并將功耗降低 3.5 倍。

據(jù)悉怎燥,零度智控已經(jīng)在其無(wú)人機(jī)產(chǎn)品 —— DOBBY 上采用深鑒科技的神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)技術(shù)瘫筐,能夠?qū)崿F(xiàn)物體以及行人的檢測(cè)和實(shí)時(shí)跟蹤拍攝、手勢(shì)識(shí)別和人臉識(shí)別等功能铐姚。另外策肝,深鑒科技還著眼于機(jī)器人、安防監(jiān)控、數(shù)據(jù)中心領(lǐng)域驳糯,正在將技術(shù)全面應(yīng)用于實(shí)際產(chǎn)品篇梭。

深度定制的 ASIC

不過(guò),F(xiàn)PGA 依舊有它的局限性酝枢。首先恬偷,在延遲和功耗上 FPGA 要優(yōu)于 GPU,但 FPGA 的峰值性能卻不如 GPU帘睦。第二袍患,F(xiàn)PGA 的編程難度很高,開(kāi)發(fā)者不僅要有軟件開(kāi)發(fā)的能力竣付,還要掌握數(shù)字電路的設(shè)計(jì)理論诡延,兩種技能都需要長(zhǎng)時(shí)間的打磨和積累」诺ǎ基于上述原因肆良,部分芯片公司將目光轉(zhuǎn)向可以深度定制的專用集成電路 ASIC。

去年谷歌的 AlphaGo 和李世石的人機(jī)大戰(zhàn)將人工智能帶到了一個(gè)高潮逸绎,其中 AlphaGo 采用了 Google 自研的第二代 TPU惹恃,而 TPU 就是以 ASIC 的方式實(shí)現(xiàn)。

ASIC 全稱為專用集成電路 (Application-Specific Integrated Circuit)棺牧,和 FPGA 不一樣的是巫糙,F(xiàn)PGA 寫完代碼后就能夠使用廠商提供的工具實(shí)現(xiàn)硬件加速,而設(shè)計(jì) ASIC 還需要做大量的驗(yàn)證和物理設(shè)計(jì)颊乘,需要花更多的時(shí)間和資金参淹。如果針對(duì)特殊場(chǎng)合(如軍事和工業(yè)),ASIC 還需要更多時(shí)間進(jìn)行特別的設(shè)計(jì)以滿足需求乏悄。雖然設(shè)計(jì)的時(shí)間比較長(zhǎng)浙值,但 ASIC 加速器的速度會(huì)比用同樣工藝 FPGA 加速器速度快 5 ~ 10 倍,在功耗上也遠(yuǎn)遠(yuǎn)優(yōu)于 GPU檩小,而且一旦量產(chǎn)后开呐,ASIC 的成本會(huì)遠(yuǎn)遠(yuǎn)低于 FPGA 方案。

AlphaGo 中就采用了 Google 研發(fā)的 TPU

也正是因?yàn)槠溲邪l(fā)周期長(zhǎng)识啦,門檻高,導(dǎo)致做 ASIC 的風(fēng)險(xiǎn)太大神妹,同時(shí)也可能因?yàn)橼s不上市場(chǎng)的變化速度而陷入尷尬的境地颓哮。所以,很多業(yè)內(nèi)人士知道 ASIC 的性能要高于 FPGA鸵荠,卻不敢輕易采用冕茅。

盡管研發(fā) ASIC 需要承擔(dān)很大的風(fēng)險(xiǎn),但仍然有不少芯片公司不遺余力地推進(jìn) ASIC 的研究。

上文提到的寒武紀(jì)就是個(gè)中翹楚姨伤。寒武紀(jì)科技由創(chuàng)始人陳天石教授帶領(lǐng)中科院團(tuán)隊(duì)成立于 2016 年哨坪,致力于打造各類智能云服務(wù)器、智能終端以及智能機(jī)器人的核心處理器芯片乍楚。公司研制了國(guó)際首個(gè)深度學(xué)習(xí)專用處理器芯片当编,不同于 Google 采用的通用處理器,寒武紀(jì)芯片專門面向深度學(xué)習(xí)技術(shù)徒溪。模擬實(shí)驗(yàn)表明忿偷,寒武紀(jì)芯片相對(duì)于傳統(tǒng)執(zhí)行 x86 指令集的芯片,有兩個(gè)數(shù)量級(jí)的性能提升臊泌。

有消息稱鲤桥,華為 Mate 10 所搭載的麒麟 970 芯片,將嵌入寒武紀(jì)的人工智能 IP渠概。

另外茶凳,2015 年創(chuàng)立的企業(yè)地平線機(jī)器人(Horizon Robotics)致力于打造基于深度神經(jīng)網(wǎng)絡(luò)的人工智能「大腦」平臺(tái),包括軟件和芯片播揪。軟件方面贮喧,地平線機(jī)器人做了一套基于神經(jīng)網(wǎng)絡(luò)的 OS,已經(jīng)研發(fā)出面向自動(dòng)駕駛的「雨果」平臺(tái)和面向智能家居的「安徒生」平臺(tái)剪芍。在芯片方面塞淹,未來(lái)地平線機(jī)器人還會(huì)為這個(gè)平臺(tái)設(shè)計(jì)一個(gè)芯片 —— NPU(Neural Processing Unit),支撐自家的 OS罪裹,到那時(shí)效能會(huì)提升 2-3 個(gè)數(shù)量級(jí)饱普。

后摩爾定律時(shí)代,AI 芯片擁有更加廣闊的想象空間

近些年状共,摩爾定律似乎已經(jīng)發(fā)展到了極限套耕,粗暴地縮小特征尺寸將變得非常困難。對(duì)于未來(lái)摩爾定律的發(fā)展峡继,業(yè)界和學(xué)界給出了以下三個(gè)方案:

● More Moore(深度摩爾):想辦法沿著摩爾定律的道路繼續(xù)向前推進(jìn)冯袍。

● More than Moore(超越摩爾):由應(yīng)用需求驅(qū)動(dòng),側(cè)重于功能的多樣化碾牌。

● Beyond CMOS:使用 CMOS 以外的新器件康愤。

「More Moore」和「More than Moore」的區(qū)別

其中,「More than Moore」是目前主流的行業(yè)趨勢(shì)舶吗,其具體含義是征冷,芯片設(shè)計(jì)者可以電路設(shè)計(jì)、系統(tǒng)算法優(yōu)化誓琼,或者封裝技術(shù)實(shí)現(xiàn)模塊集成检激,以達(dá)到優(yōu)化芯片的目的肴捉,同時(shí)芯片也可以擁有一些新的功能。這就意味著 AI 芯片有更加廣闊的想象空間叔收,同時(shí)也說(shuō)明 AI 芯片領(lǐng)域也蘊(yùn)藏著巨大的商機(jī)齿穗。

AI 不是用一塊簡(jiǎn)單的芯片就能實(shí)現(xiàn),也沒(méi)有哪個(gè)單一的 AI 系統(tǒng)能夠在任何場(chǎng)景完美地工作饺律。AI 在不同場(chǎng)景中的應(yīng)用窃页,都需要針對(duì)場(chǎng)景的需求,在功耗蓝晒、延遲腮出、數(shù)據(jù)吞吐量、加速器方案的選擇上做出調(diào)整和優(yōu)化芝薇,這也會(huì)刺激從工具和 IP 供應(yīng)商一直到包裝和流程開(kāi)發(fā)等環(huán)節(jié)的巨大發(fā)展胚嘲。

AI 芯片領(lǐng)域的創(chuàng)新涉及到人工智能算法、編程語(yǔ)言洛二、計(jì)算機(jī)體系結(jié)構(gòu)馋劈、集成電路、半導(dǎo)體工藝等多方面晾嘶,絕不是一蹴而就的事情妓雾。雖然在整個(gè) IC 產(chǎn)業(yè)結(jié)構(gòu)上,美國(guó)處于領(lǐng)先地位垒迂,在 GPU 領(lǐng)域械姻,國(guó)內(nèi)幾乎處于空白,但是仍然有一批創(chuàng)業(yè)公司有彎道超車的機(jī)會(huì)机断,比如上述的寒武紀(jì)科技楷拳、深鑒科技、地平線機(jī)器人吏奸,以及已經(jīng)具有一定規(guī)模的中微星欢揖,他們的技術(shù)在某些特定場(chǎng)景取得了相當(dāng)不錯(cuò)的成績(jī)。

在 PC 時(shí)代奋蔚, 微軟和英特爾形成的 WINTEL 聯(lián)盟牢不可破她混,但在移動(dòng)互聯(lián)網(wǎng)時(shí)代,卻被 ARM 和高通迎頭趕上泊碑。而 AI 產(chǎn)業(yè)剛剛開(kāi)始發(fā)展坤按,市場(chǎng)空間巨大,機(jī)會(huì)也開(kāi)始顯露馒过,國(guó)內(nèi) AI 風(fēng)頭正盛臭脓,勢(shì)必會(huì)產(chǎn)生像英特爾和英偉達(dá)這樣世界級(jí)的企業(yè)。

>>
Back to top btn
亚洲AV无码国产精品网址,久久亚洲AV成人出白浆无码国产,日韩AV美乳欧美,永久免费AV无码软件app下载