還別說光戈,耳機鑲鉆哪痰,真好看!
對話閱面科技創(chuàng)始人趙京雷,如何軟硬兼施灌具,讓機器擁有一雙聰慧的「眼睛」|連線灣星人
要想真正的解決機器視覺的問題青团,必須要做硬件。
要想真正的解決機器視覺的問題咖楣,必須要做硬件督笆。
本期嘉賓介紹:
趙京雷,閱面科技創(chuàng)始人 & CEO诱贿,上交大人工智能博士娃肿,前 Wise nut 算法總監(jiān),前阿里北京算法研究中心負責人珠十、高級算法專家料扰。2015 年成立閱面科技(ReadSense)。
關(guān)于閱面科技(ReadSense):
閱面科技(ReadSense)是一家人工智能企業(yè)宵睦,專注于深度學習和嵌入式視覺记罚,為智能機器提供視覺識別技術(shù),包括面部識別(Readface)壳嚎、手勢識別(Readhand)桐智、人體識別(Readbody)以及環(huán)境感知(Readway)。另外在硬件層面上烟馅,主要針對需要深入建模说庭,對計算等方面有非常高的性能要求的情況,給出的一個優(yōu)化好的軟硬件一體化解決方案郑趁。
目前刊驴,閱面科技總部在上海,并在北京寡润、南京以及美國的明尼蘇達設(shè)有研發(fā)分布捆憎。 團隊來自阿里巴巴、百度以及卡內(nèi)基梅隆等國內(nèi)外知名大型企業(yè)梭纹。
以下是趙京雷在「連線灣星人」活動中與小伙伴們的對話實錄躲惰,經(jīng)深圳灣(公眾號 ID:shenzhenware)編輯整理:
深圳灣:感謝趙總來深圳灣交流!能否再對你們「自主研發(fā)的創(chuàng)新性視覺算法变抽,硬件模組及芯片础拨,提供一體化解決方案」做進一步的介紹氮块?
趙京雷:謝謝各位,現(xiàn)在的視覺算法早已舍棄了底層的傳統(tǒng)方法诡宗,全都必須采用深度學習滔蝉。在深度學習框架上,我們主要解決了檢測塔沃、追蹤和識別三塊蝠引,基于自主算法的不斷優(yōu)化,可以構(gòu)建一系列諸如人臉識別蛀柴、手勢識別立肘、人體識別以及場景感知算法。
視覺算法前端運算的最終形式是視覺芯片名扛,我們基于算法會提供軟硬件一體的解決方案谅年,幫助行業(yè)解決視覺問題。
深圳灣:趙總能介紹一下閱面現(xiàn)在的合作案例嗎肮韧?
趙京雷:我們目前在機器人融蹂、掃地機器人、車載設(shè)備和 loT 等行業(yè)有很多的合作伙伴弄企,具體可以找個機會做進一步交流超燃。
深圳灣:有人說人工智能就是機器人,趙總同意這個觀點嗎拘领?
趙京雷: (人工智能與機器人)這兩個概念是很不同的意乓,但在某種意義上,也可以這樣說约素。 機器人在英文中叫做 Robotics届良,不一定是指人形的機器,其典型特點是圣猎,具備了部分人類或者生物認知能力的機器士葫。 另外,機器人不一定要有硬件載體送悔,人工智能算法本身接入虛擬形象也可以成為某種意義上的機器人慢显。
深圳灣:從做算法層產(chǎn)品,到自己做硬件欠啤,碰到哪些過坑荚藻? 又是怎么解決這些坑的?
趙京雷: 硬件和算法產(chǎn)品的做法差別非常大洁段,但在目前应狱,要想真正的解決機器視覺的問題,必須要做硬件眉撵。另外侦香,做硬件要考慮性能、功耗纽疟、價格和供應鏈以及與軟件算法的整合優(yōu)化等罐韩。幸虧團隊里有硬件產(chǎn)品經(jīng)驗比較豐富的同事,解決起來相對沒那么費勁污朽。我們也一直在加強硬件方面人才的積累散吵。
深圳灣:本地化算法嵌入硬件模塊,沒連接云端能實現(xiàn)大數(shù)據(jù)分析和深度學習嗎蟆肆?
趙京雷 : 在機器學習中矾睦,目前主流的算法分為從大數(shù)據(jù)中去學習的訓練階段,和對新數(shù)據(jù)處理的預測階段炎功。不管算法是運行在云端還是本地枚冗,都要先從大數(shù)據(jù)中去習得能力。所以預測端代碼跑在前端還是云端和離線的數(shù)據(jù)處理是沒關(guān)系的蛇损,云端的預測模型也需要部署上去赁温,兩者都是基于訓練階段結(jié)合大數(shù)據(jù)訓練出來的。
深圳灣 : 明白淤齐,這樣的話股囊,離線的優(yōu)勢確實就比較明顯了。我們現(xiàn)在會接觸到一些機器人并發(fā)現(xiàn)更啄,在語音方面稚疹,它們會時常因為鏈接云端而出現(xiàn)聯(lián)網(wǎng)狀態(tài)下反應慢的情況,但離線就解決了網(wǎng)絡(luò)延遲時間的問題祭务。
深圳灣:薩曼莎是靠什么内狗?系統(tǒng)算法?未來所謂的機器人是不是都可以如精靈般虛擬的存在著义锥。
趙京雷: 薩曼莎某種意義上是一個「人工智能程序」或算法其屏,也可以稱之為一個機器人,只不過這個機器人沒有傳統(tǒng)意義上的機器人軀干缨该。 她具備了機器人必備的人工智能認知系統(tǒng)偎行,比如語音識別,語言閱讀和理解能力贰拿,以及視覺能力(通過連接到互聯(lián)網(wǎng)的各個攝像頭的視頻數(shù)據(jù)進行處理)蛤袒。未來的機器人可以有硬件載體,也可以是存在于 AR膨更、VR 等場景的虛擬影像妙真。
深圳灣:對于手勢動作的識別(ReadHand),你是怎么解決多角度的識別荚守? 目前手勢識別的應用場景停留在簡單交互的控制上珍德,比如體感游戲练般、非觸屏幕,這類場景由于限制了用戶與攝像頭之間的距離锈候、角度薄料,因此識別率非常之高,當然算法模型也就可以僅根據(jù)這類場景的樣本進行訓練泵琳。但如果打破這個限制摄职,當手勢與攝像頭的環(huán)境變得無法控制時,同個一個定義手勢获列,就會出現(xiàn)無數(shù)個視覺樣本谷市,這個時候還有可能建立起有效的訓練模型嗎?
趙京雷:關(guān)于手勢識別击孩,主流有 2D 和 3D 的方案迫悠,除了 VR 和 AR 中一些需要精確捕捉手部關(guān)節(jié)運動的應用,其他手勢都可以使用 2D 來做巩梢。2D 的數(shù)據(jù)量比較大及皂,對深度學習尤其適用。影響手勢識別角度的最關(guān)鍵的是手部檢測且改,也就是把手從圖片中檢測出來验烧。在樣本量夠的情況下,目前深度學習是有能力構(gòu)建非常精確的多角度手部檢測模型又跛。以前碍拆,3D 的方法在手部檢測方面比 2D 有明顯優(yōu)勢,但在深度學習和大樣本的情況下慨蓝,這種優(yōu)勢正在消失感混。
深圳灣:對于面部表情或手勢等,不同的人礼烈,不同的地區(qū)和國家弧满。他們的表現(xiàn)出來的表情和手勢都是不同的,這該如何更有效的識別呢此熬?
趙京雷 : 人類是有共同的認知的庭呜,形體和表情的差異基本不大。 另外犀忱,人機交互算法提供的是對頭部募谎、手部以及人體的基本檢測、追蹤和基本動作辨識能力阴汇∈基于之上去構(gòu)建語義是應用層和產(chǎn)品層的事情。完全可以在應用層定義不同的含義搀庶。
深圳灣:最近有一些消息稱拐纱,市面上絕大多數(shù)監(jiān)控攝像頭雖說是高清攝像頭铜异,但實際上,在 10 米之外秸架,攝像頭捕捉到的面孔信息揍庄,已經(jīng)非常模糊了。閱面會有這方面的技術(shù)突破嗎咕宿?
趙京雷:我們一直在加強對遠距離和模糊信息的處理手段。未來的視覺識別都是「無感」的蜡秽,也就是不能要求被識別的目標擺 pose府阀,由于運動、角度等影響芽突,真實的圖像質(zhì)量普遍偏低试浙,實際的產(chǎn)品必須要考慮到這些問題。表情識別只是我們解決方案中很小的一部分寞蚌。
深圳灣:之前有聽說過「計算機做人臉識別會比人更準」這樣類似的話田巴,但是實際上所見到的機器人中并不是這樣,想必這話也不是沒有由來挟秤。趙總在人工算法上有深度的研究壹哺,想請問什么情況下,會如同所說的比人識別的還要準呢艘刚?
趙京雷: 計算機做人臉識別在大部分的情況下遠遠不如人類準管宵,而且在某些特定場景下相差甚遠,因為機器受燈光攀甚、角度箩朴、模糊影響很大。 在人臉識別領(lǐng)域秋度,有個基本的測試數(shù)據(jù)集叫做 LFW炸庞,不同家的算法都會在上面比較一下在這個數(shù)據(jù)集上的精度,這個數(shù)據(jù)集雖然和實用場景還相差甚遠荚斯,但為算法研究建立了一個基本的標準埠居。
在 LFW 上,人可以在上面做到 97.5% 的人臉識別準確率事期,而機器可以做到 99.5% 以上拐格,我們所說的機器比人準,很大程度上來源于此刑赶。
深圳灣:在人工智能的憧憬上捏浊,我比較向往電影『Her』中的 OS 系統(tǒng),即能處理程序化的事務(wù)撞叨,也能讀懂人類的心理情緒金踪。在識別情緒上浊洞,閱面有臉部識別(ReadFace),可以通過攝像頭實時的識別人臉的情緒變化胡岔。但計算機讀懂的只是一個情緒模型的置信值法希,計算機并不能懂人心情的緣由,因此無法精準的給出正確的反饋靶瘸。我覺得這是人工智能目前遇到最大的瓶頸苫亦,不知道您對此有什么好的想法?
趙京雷:在目前怨咪,之所以表情識別是人臉識別中最難的問題屋剑,一方面主要是因為數(shù)據(jù)的不一致,人類在某種情感上較難建立標準的定義诗眨;另一方面就像你所說的唉匾,機器不太能理解面部表情潛在的心情緣由。通過多模態(tài)的輸入匠楚,比如結(jié)合體征特征巍膘,聲音特征等對情緒進行建模,目前也有人在嘗試芋簿,總體進展和實用性不大峡懈。
人工智能目前的最大瓶頸其實是在模型本身,現(xiàn)在深度學習模型也只是對人腦的認知機制刻畫了一個皮毛与斤。而對大腦認知結(jié)構(gòu)進一步的認知(比如心理學和生物學)逮诲,將會對 AI 帶來本質(zhì)性的突破。
深圳灣:機器視覺可以識別捕捉到人臉上微妙的肌肉的變化幽告,包括識別表情梅鹦,是否考慮和心理學家合作,或者是結(jié)合表情的大數(shù)據(jù)冗锁,做出測謊機器人齐唆?
趙京雷: 微表情的研究僅僅停留在學術(shù)上,目前工業(yè)實現(xiàn)基本沒有可能冻河。
感謝雷子的精彩分享,以及耐心的解答镇饺。這個團隊做的事情很有意思乎莉,期待再次做客深圳灣送讲。