還別說籽孙,耳機(jī)鑲鉆,真好看火俄!
圖靈郭家:兒童 AI 玩具自帶人格屬性书聚,AI+IP 是兒童產(chǎn)品的一個(gè)大趨勢(shì)
圖靈機(jī)器人是一家聚焦人工智能語義的 AI 服務(wù)平臺(tái),自 2010 年成立至今逆瑞,已在全球聚集了近 70 萬名注冊(cè)開發(fā)者荠藤,合作伙伴包括三星伙单、微軟、騰訊哈肖、百度吻育、聯(lián)想、海爾牡彻、HTC扫沼、小米等大牌廠商。而在不久前更是全面接入小愛同學(xué)庄吼,開始發(fā)力兒童 AI 語音技能缎除。
在本次「深圳灣 WARE 2018 新硬件峰會(huì)」上,圖靈機(jī)器人聯(lián)合創(chuàng)始人郭家發(fā)表了他對(duì)于 AI 技術(shù)應(yīng)該如何更好的應(yīng)用于兒童領(lǐng)域的看法总寻。
他認(rèn)為器罐,AI+IP 已是國(guó)際上兒童產(chǎn)品的一個(gè)大趨勢(shì),而要實(shí)現(xiàn) AI+IP 的完美融合渐行,首先應(yīng)該聚焦把技術(shù)融合在構(gòu)建影響力層面轰坊,從而實(shí)現(xiàn)吸引更多粉絲購買。
那么圖靈如何將 AI 能力變現(xiàn)為智能服務(wù)呢祟印?主要分為三個(gè)方面:一是在圖靈語料總庫的基礎(chǔ)上肴沫,為每個(gè)機(jī)器人建立一個(gè)獨(dú)立的記憶系統(tǒng),讓機(jī)器人學(xué)習(xí)并記憶每個(gè)用戶個(gè)性化的習(xí)慣數(shù)據(jù)蕴忆,這樣會(huì)就有更深的粘性颤芬;二是為優(yōu)質(zhì)的合作伙伴定制特有資源的 AI 技能、知識(shí)圖譜套鹅;三是根據(jù)不同 IP 的內(nèi)容劇本站蝠,訓(xùn)練出每個(gè) IP 獨(dú)有的話題。
以下內(nèi)容為郭家在深圳灣「WARE 2018 新硬件峰會(huì)上」的演講實(shí)錄卓鹿,在不改變?cè)敢獾幕A(chǔ)上略有刪減:
嘉賓:圖靈機(jī)器人聯(lián)合創(chuàng)始人 郭家
主題:AI+IP:兒童智能產(chǎn)品的 AI 交互模型
大家好菱魔,我是圖靈的郭家。今天跟大家分享一下 AI 在兒童領(lǐng)域的應(yīng)用探索吟孙。
幾天前澜倦,艾瑞咨詢發(fā)布了一份 AI 領(lǐng)域的分析報(bào)告,分別從橫向幾個(gè)維度和縱向幾個(gè)維度解析了人工智能產(chǎn)業(yè):
橫向維度包括基礎(chǔ)設(shè)施(如芯片杰妓、傳感器肥隆、數(shù)據(jù))、行業(yè)應(yīng)用場(chǎng)景(如工業(yè)稚失、金融、教育)等恰聘,縱向維度則是按照技術(shù)歸類劃分句各,我們最終發(fā)現(xiàn)其實(shí)每個(gè)產(chǎn)品都可歸類于這三大類技術(shù):語音辨識(shí)與合成(ASR/TTS)吸占、語義理解(NLP)、機(jī)器視覺(CV)等凿宾,這也是目前人工智能領(lǐng)域主要的三大主流技術(shù)框架矾屯。
(圖)
圖靈主要是做智能語義這個(gè)細(xì)分技術(shù)的,我也非常認(rèn)可曾老師剛才的觀點(diǎn)初厚,一個(gè)產(chǎn)品好必須要名字好件蚕,「圖靈」是我們比較早注冊(cè)的一個(gè)名字, 2010 年公司開始探索 AI 方向時(shí)就把這個(gè)名字注冊(cè)下來产禾,當(dāng)時(shí)人工智能領(lǐng)域還沒有今天這么大的熱潮排作。
我們從開放語義技術(shù)到現(xiàn)在,已經(jīng)在全球積累了 70 多萬開發(fā)者亚情,每天還有很多開發(fā)者和企業(yè)應(yīng)用我們的語義平臺(tái)妄痪。自 2015 年開始,我們的兒童領(lǐng)域逐步跟 TOP 10 的企業(yè)達(dá)成合作楞件,這里面有一些是兒童領(lǐng)域的衫生,有一些是非兒童領(lǐng)域的,我就不一一列舉了土浸。
(圖)
在語音語義交互領(lǐng)域有哪些關(guān)鍵的指標(biāo)和構(gòu)成呢罪针?這是圖靈的一些關(guān)鍵數(shù)據(jù)(見PPT),左邊是我們最看重的算法類指標(biāo)黄伊,包括語音泪酱、語義的交互數(shù)據(jù),包括分詞毅舆、意圖解析 西篓、NER 準(zhǔn)確率等,標(biāo)黃的部分則是客戶及用戶層面也非常關(guān)注的數(shù)據(jù)憋活。
(圖)
比如說響應(yīng)速度岂津,我記得在跟富士康合作的過程中,有幸看了一下 Echo 的交互數(shù)據(jù)悦即,從用戶說話到反饋結(jié)果吮成,平均耗時(shí) 1.5 秒。我們測(cè)了很多國(guó)內(nèi)的產(chǎn)品辜梳,有的比它還要更快粱甫,這是特別重要的一個(gè)指標(biāo)。還有一個(gè)指標(biāo)作瞄,我們問一個(gè)問題茶宵,機(jī)器能不能回答好,包括兩部分:第一部分是正確的理解宗挥、聽懂你的意思乌庶;第二部分是找到合適的答案給到你种蝶。所以意圖理解是非常重要的環(huán)節(jié),也是各項(xiàng)國(guó)際賽事主要 PK 的指標(biāo)瞒大。
我們常講 AI 的技術(shù)的本質(zhì)是算法+數(shù)據(jù)螃征,數(shù)據(jù)的積累往往是一個(gè)公司的門檻。我特別認(rèn)可一句話透敌,所有的互聯(lián)網(wǎng)公司都會(huì)變成數(shù)據(jù)公司盯滚,所有的數(shù)據(jù)公司都會(huì)變成人工智能公司,所以數(shù)據(jù)對(duì)大家至關(guān)重要酗电。圖靈還為兒童提供兒童音視頻資源和成人音視頻資源魄藕。
小米 3 月 15 日發(fā)布會(huì)當(dāng)天起,我們和小米兒童產(chǎn)品全面合作顾瞻,在小米智能手表泼疑、故事機(jī)上面采用了圖靈的 AI 技術(shù)。而在 3 月 27 日小米發(fā)布會(huì)上荷荤,雷軍宣布小愛同學(xué)不僅植入了電視退渗,還植入了手機(jī),我們圖靈也進(jìn)入到里面的兒童對(duì)話部分蕴纳。
圖靈的 AI 技術(shù)包括三大方面的能力会油,一個(gè)是語音對(duì)話,包括閑聊型古毛、知識(shí)問答型和技能任務(wù)翻翩;第二是兒童內(nèi)容點(diǎn)播;第三是家長(zhǎng)端稻薇。相信在座的各位比較熟悉嫂冻,這也不是今天要跟大家討論的重點(diǎn),重點(diǎn)是另外一部分是 AI+IP 部分塞椎。
(圖)
首先看這個(gè)數(shù)據(jù)桨仿,白色的這款是 MIT 著名的 Jibo 產(chǎn)品,也是幾個(gè)教授一起做的一款產(chǎn)品案狠,它的銷量比起超級(jí)飛俠的銷量服傍,以及用戶的喜愛度還是差很遠(yuǎn)。其實(shí)骂铁,對(duì)兒童來說吹零,喜歡哪個(gè)不喜歡哪個(gè),從外觀和表現(xiàn)力上就已經(jīng)非常明顯拉庵。
這是圖靈的 AI+IP 的模型灿椅。首先我們看 IP 的價(jià)值是什么:首先要有足夠的流量建立影響力,比如明星,我就要拉著他經(jīng)常走秀阱扬,讓他出名泣懊;然后接一些廣告變現(xiàn),進(jìn)行粉絲消費(fèi)變現(xiàn)麻惶,在動(dòng)畫領(lǐng)域的一些兒童 IP 已經(jīng)有這樣的價(jià)值了。
那怎么實(shí)現(xiàn) AI 技術(shù)與 IP 的融合呢信夫?首先從技術(shù)層面來講窃蹋,包括語音、視覺静稻、機(jī)械控制等警没,其次還要做很多智能化的服務(wù),才能讓整個(gè) AI 價(jià)值體現(xiàn)出來振湾。
(圖)
換一個(gè)維度來梳理框架杀迹,要把 AI 疊加在 IP 上面,就應(yīng)該是把技術(shù)融合在構(gòu)建影響力這個(gè)層面押搪,去吸引足夠多的粉絲树酪,然后把智能化的服務(wù)和消費(fèi)在上面,這是我們主要思考的 AI+IP 的模型大州。在這個(gè)模型下续语,我們來看一下都包含哪些東西:
首先,多模態(tài)交互厦画。我們給客戶定制的個(gè)性化多模態(tài)交互包含四大部分的功能:第一疮茄,屬性個(gè)性化,定義機(jī)器人的姓名根暑、年齡力试、性別、父母等等排嫌;第二畸裳,音色個(gè)性化,用 WaveNet 生成語音 TTS 模型躏率;第三躯畴,動(dòng)作個(gè)性化,比如小時(shí)候看『圣斗士星矢』薇芝,每個(gè)角色都有標(biāo)志性的動(dòng)作蓬抄,包括現(xiàn)在的動(dòng)畫片,標(biāo)志性動(dòng)作都非常重要夯到;第四嚷缭,表情個(gè)性化,每個(gè)角色交流過程中不僅有動(dòng)作、聲音阅爽,還有豐富的表情路幸,這是通過精準(zhǔn)計(jì)算后得出的情感程度、情感類型而展現(xiàn)出來的付翁。
給大家展示一下幾種 TTS 的效果简肴。(播放音頻)這是目前市場(chǎng)上主流的 TTS 技術(shù)。但是今年一月份發(fā)生了一件事情 百侧,AlphaGo 團(tuán)隊(duì)開放了一個(gè)最新的 TTS 技術(shù)—— 基于 WaveNet 卷積神經(jīng)網(wǎng)絡(luò)的 Cloud TTS砰识,發(fā)布之后我們?cè)嚵艘幌拢瑤缀趺霘?BAT 和訊飛的 TTS 的效果佣渴,給大家聽一下最新的效果(播放音頻)辫狼。
不難發(fā)現(xiàn) ,Google TTS 的音色的圓潤(rùn)程度遠(yuǎn)遠(yuǎn)比市場(chǎng)現(xiàn)有 TTS 音色的圓潤(rùn)程度高辛润,能做到和人物原聲相似度達(dá) 95% 以上膨处。甚至還有一些客戶找到我們,讓我們幫助做電話銷售的 TTS砂竖,就是當(dāng)你接起電話真椿,那邊與你講話的就是合成的聲音 。Google 的技術(shù)確實(shí)非常好晦溪,能夠比我們國(guó)內(nèi)研發(fā)迭代的速度更快一些瀑粥。
清華大學(xué) Aminer 團(tuán)隊(duì)不久前發(fā)布了一份報(bào)告,報(bào)告顯示圖靈兒童 AI 專利數(shù)為同類專利總數(shù)的 62%三圆,多模態(tài)交互專利全球第二 狞换,AI 專利總數(shù)則是全球第四。
(圖)
接下來講一下智能化服務(wù)舟肉,也就是我們的 AI+ IP 模型怎么變現(xiàn)修噪。分三方面:
第一,建立獨(dú)立記憶系統(tǒng)路媚。這個(gè)需要海量的數(shù)據(jù)來做黄琼,例如如果能持續(xù)記錄用戶的個(gè)人習(xí)慣,并做出相應(yīng)的個(gè)性化調(diào)整整慎,這能使得產(chǎn)品有更深的粘性脏款。
第二,定制語義技能裤园。因?yàn)槲覀円恢币彩情_發(fā)者撤师,所以為優(yōu)質(zhì)合作伙伴定制自有資源的 AI 技能、知識(shí)圖譜等拧揽。
第三剃盾,劇本式話題腺占,根據(jù)動(dòng)畫片的劇本,生成每個(gè) IP 獨(dú)有的話題痒谴。比如說我們跟小豬佩奇合作衰伯,跟超級(jí)飛俠蒙奇小隊(duì)(音)合作吵瞻,我們訓(xùn)練出來的內(nèi)容跟其他內(nèi)容就不一樣筏餐。比如我問它,你有去過巴黎嗎算色?如果小豬佩奇就會(huì)說尽爆,法國(guó)就在我們隔壁临扮,我經(jīng)常去;如果是超級(jí)飛俠就會(huì)說教翩,我本來就會(huì)飛,想去哪里就去哪里贪壳。
響應(yīng)客戶的需求饱亿,我們做了大量?jī)和惖慕逃ぷ鳎覀儼岩恍┱n本教材拿過來作為資源闰靴。
(圖)
AI+IP 也是國(guó)際上兒童產(chǎn)品的趨勢(shì)彪笼。如圖,圖一是我們圖靈和日本夏普合作的 RoBoHoN 機(jī)器人蚂且;圖二是會(huì)說話的超級(jí)蜘蛛俠配猫;圖三是迪斯尼申請(qǐng)的的 AI 劇本專利,就是把故事給兒童 AI 訓(xùn)練學(xué)習(xí)杏死,這也是兒童領(lǐng)域的大方向泵肄。
作為一個(gè)機(jī)器人,它所體現(xiàn)出來的玩點(diǎn)淑翼,對(duì)兒童的吸引點(diǎn)究竟在哪兒呢腐巢?我們找了世界各地的小朋友做了一次調(diào)研。第一張圖中是墨西哥的一個(gè)小朋友玄括,他最喜歡小汽車冯丙。第二個(gè)是意大利的小朋友,喜歡各種公主裙和芭比娃娃遭京。第三個(gè)喜歡飛機(jī)胃惜。第四個(gè)中國(guó)小朋友喜歡槍和炮。
小朋友喜歡玩什么哪雕?答案很明確船殉,就是給他一個(gè)能承載夢(mèng)想的實(shí)體。比如說热监,第一個(gè)是駕駛員的夢(mèng)想捺弦,我小時(shí)候玩小汽車就有在駕駛的感覺;第二個(gè)是公主夢(mèng);第三個(gè)是飛行員的夢(mèng)想列吼;第四個(gè)是當(dāng)戰(zhàn)士的夢(mèng)想幽崩。
我們可以這樣來設(shè)想,兒童眼中夢(mèng)想的機(jī)器人應(yīng)該是什么樣子寞钥?他們極具想象力慌申,你給他一個(gè)簡(jiǎn)單的玩具,他就能設(shè)想出一個(gè)完美的夢(mèng)想理郑。例如圖中在我們看來就是一個(gè)簡(jiǎn)單的帳篷蹄溉,但在孩子們的眼中它可能是一座城堡。
(圖)
AI 機(jī)器人天然自帶一種人格屬性您炉,它就是一個(gè)有生命的機(jī)器人柒爵,而多模態(tài)交互能讓 IP 角色更加豐富,這樣就能夠更加滿足他的夢(mèng)想赚爵。同時(shí)我們?cè)僭谄渲屑尤胫悄芑膬?nèi)容服務(wù)棉胀,就可以幫助孩子產(chǎn)生對(duì)學(xué)習(xí)的樂趣。
以上就是我的分享冀膝,謝謝各位唁奢!