速記和同傳可以轉(zhuǎn)行了喻鳄,搜狗 398 元的錄音翻譯筆現(xiàn)已開售
虛擬主播、智能硬件… AI 的下一個(gè)應(yīng)用突破會(huì)在哪里 | 對話搜狗王小川
我們認(rèn)為,靠技術(shù)創(chuàng)新撤蟆,可以獲得巨大的市場份額奕塑。
和國內(nèi) BAT 大型發(fā)布會(huì)高唱 AI 賦能各種場景的論調(diào)不太一致的地方家肯,是華爾街對于 AI 的態(tài)度:回歸冷靜龄砰,伴隨對 AI 公司的投資放緩、估值下移讨衣。
在上周香港召開的 RISE 大會(huì)上换棚,微軟、亞馬遜反镇、LINE固蚤、索菲亞機(jī)器人等領(lǐng)軍企業(yè)帶著數(shù)十家高唱 AI 的企業(yè),在 keynote 和圓桌環(huán)節(jié)悉數(shù)登場愿险。其中就包含行業(yè)明星和新秀颇蜡,與老練穩(wěn)重的老牌巨頭相比,他們展示了獨(dú)有的活力辆亏,與參會(huì)者積極的討論下一個(gè)科技熱潮风秤。
同樣亮相 RISE 大會(huì)的搜狗,則在大會(huì)上發(fā)布了全球首個(gè)高度實(shí)用化扮叨、定制化的虛擬主播缤弦。不需要主播本人的出境,只需要央視新聞主播姚雪松 1.5 個(gè)小時(shí)的音視頻數(shù)據(jù)彻磁,結(jié)合語音碍沐、圖像等多模態(tài)信息進(jìn)行聯(lián)合建模訓(xùn)練,輸入一段 RISE 大會(huì)文字稿衷蜓,就可以快速預(yù)測生成與真人無異的播報(bào)效果累提。(觀看以下視頻了解實(shí)況)
在「兜售」了一遍搜狗以語言為核心的 AI 戰(zhàn)略布局后,搜狗出人意料地在大會(huì)上爆料磁浇,將在年底前發(fā)布 4 款新的智能硬件斋陪。
帶著一些對于 AI 落地的疑問,深圳灣發(fā)起了一次與王小川的對話置吓。
是嗎无虚?AI 已經(jīng)沒有那么吃香了?
在人工智能方面衍锚,我認(rèn)為中國還是有機(jī)會(huì)跟美國在應(yīng)用層面上齊頭并進(jìn)友题。
2018 年 3 月 5 日,人工智能產(chǎn)業(yè)第二次被寫入政府工作報(bào)告戴质。據(jù)統(tǒng)計(jì)度宦,2017 年中國人工智能核心產(chǎn)業(yè)規(guī)模超過 700 億元踢匣,隨著各地人工智能建設(shè)的逐步啟動(dòng),預(yù)計(jì)到 2020 年斗埂,中國人工智能核心產(chǎn)業(yè)規(guī)模將超過 1600 億元符糊,年復(fù)合增長率將達(dá) 31.7%。
事實(shí)上呛凶,人工智能不是一個(gè)新課題男娄,上個(gè)世紀(jì) 60 年代、80 年代就分別有兩波人工智能熱潮漾稀。不同于以往人工智能只存在于高校模闲,現(xiàn)在參與人工智能的企業(yè)數(shù)是過去的數(shù)倍,可以說崭捍,現(xiàn)在人工智能才開始真正走向了實(shí)用尸折。
在目前的中國經(jīng)濟(jì)體系中,互聯(lián)網(wǎng)是最有創(chuàng)新活力的一個(gè)版塊殷蛇,擁有著龐大的用戶規(guī)模实夹。而以這個(gè)群體為核心,中國在人工智能應(yīng)用領(lǐng)域具備很大優(yōu)勢粒梦。這些互聯(lián)網(wǎng)公司有大量的數(shù)據(jù)亮航,有足夠的資金和創(chuàng)新動(dòng)力,也能吸引不少工程師人才匀们,甚至是美國的頂尖科學(xué)家缴淋。
在技術(shù)研究方面,中國略顯薄弱泄朴。好在目前全球是一個(gè)知識共享體系重抖,在有最前沿的人工智能論文出來之后,我們很快就能學(xué)習(xí)到新的學(xué)術(shù)成果祖灰,并將之轉(zhuǎn)化成生產(chǎn)力钟沛。因此,在人工智能應(yīng)用層面上局扶,我認(rèn)為中國還是有機(jī)會(huì)跟美國齊頭并進(jìn)的恨统。
那么,AI 的下一個(gè)應(yīng)用突破會(huì)在哪里详民?
我們已看到當(dāng)前最熱的「智能音箱大戰(zhàn)」...這些事情背后有一個(gè)共同點(diǎn)——讓人工智能開始去解決語言的問題延欠。
在這一年間陌兑,人工智能領(lǐng)域有許多新的突破沈跨。包括當(dāng)前最熱「智能音箱大戰(zhàn)」,以及其他「黑科技」兔综。例如饿凛,Google 在今年 I/O 大會(huì)上提出狞玛,讓機(jī)器幫助人打電話預(yù)訂餐廳等。所有這些事情背后都有一個(gè)共同點(diǎn)涧窒,那就是讓人工智能開始去解決語言的問題心肪。
我認(rèn)為以后 AI 會(huì)融入到方方面面,并呈現(xiàn)這樣一個(gè)消費(fèi)趨勢——機(jī)器越來越懂人纠吴,而不是人去適應(yīng)機(jī)器硬鞍。比如,從以前的五筆輸入法到現(xiàn)在的拼音戴已、語音輸入固该,就是一個(gè)從人適應(yīng)機(jī)器到機(jī)器適應(yīng)人的一個(gè)典例。
未來的 AI糖儡,應(yīng)該可以做到讓人和機(jī)器更自然地交流伐坏,變得更聰明且能幫人類處理更多的工作。人工智能可能會(huì)在以下幾個(gè)領(lǐng)域率先有所發(fā)展:
- 一是識別握联。比如涉及到大量識別工作的安防領(lǐng)域桦沉。
- 二是商業(yè)智能,即讓機(jī)器智能做出決策判斷金闽。比如在投資等一些領(lǐng)域纯露,讓機(jī)器做出比人類更高效、可靠的判斷呐矾。
- 三是在娛樂產(chǎn)業(yè)苔埋。人類需要享受藝術(shù)和文化生活,而目前包括畫作蜒犯、音樂组橄、影視劇、游戲等在內(nèi)的相關(guān)作品都由人創(chuàng)作罚随。未來在 AI 的幫助下玉工,創(chuàng)作效率可以得到極大的提高,為人類提供更好的娛樂產(chǎn)品淘菩。
- 另外在這些垂直領(lǐng)域遵班,AI 也會(huì)有大的突破:一個(gè)是醫(yī)療,一個(gè)是電商和客服潮改。
僅 1.5 小時(shí)的數(shù)據(jù)訓(xùn)練狭郑,就能生成虛擬主播,搜狗家的技術(shù)優(yōu)勢在哪里汇在?
這是全球首款高實(shí)用化翰萨、定制化的虛擬主播,采用搜狗業(yè)界領(lǐng)先的語音合成糕殉、唇語合成亩鬼、音視頻聯(lián)合建模殖告、深度學(xué)習(xí)等技術(shù)。
在本次大會(huì)(RISE)亮相的虛擬主播是全球首款高實(shí)用化雳锋、定制化的虛擬主播黄绩,目前市面上還沒有類似的產(chǎn)品。
它采用了搜狗在語音合成玷过、唇語合成爽丹、音視頻聯(lián)合建模、深度學(xué)習(xí)等技術(shù)的研究成果辛蚊。采用一個(gè)主播的音視頻數(shù)據(jù)习劫,結(jié)合語音、圖像等多模態(tài)信息進(jìn)行聯(lián)合建模訓(xùn)練嚼隘,給機(jī)器輸入一段文字诽里,便可以生成一段音視頻同步的新聞播報(bào)。
其最大的難點(diǎn)在于飞蛹,經(jīng)過真人主播 1.5 小時(shí)的數(shù)據(jù)訓(xùn)練后谤狡,僅提供一段文本,機(jī)器要通過虛擬主播技術(shù)來生成逼真度極高的視頻卧檐,并且還要確保視頻中主播的音頻和臉部表情墓懂、唇動(dòng)能夠自然且一致。
至于技術(shù)優(yōu)勢方面霉囚,早在 2012 年捕仔,搜狗就開始研究語音合成技術(shù),經(jīng)過多年的技術(shù)沉淀和數(shù)據(jù)積累盈罐,目前已具備多語種榜跌、多音色的語音合成能力,并在業(yè)內(nèi)首推個(gè)性化語音合成和情感遷移的技術(shù)盅粪。用戶上傳少量音頻钓葫,即可合成高質(zhì)量的個(gè)性化音色,并且能快速遷移成多種講話風(fēng)格(相聲貫口票顾、唱歌础浮、繞口令等)。
未來奠骄,搜狗會(huì)在虛擬主播情感表達(dá)上做更深入的研究豆同,讓虛擬主播的真實(shí)感得到提升。結(jié)合搜狗語音交互系統(tǒng)知音 OS 能力含鳞,我們可以讓虛擬主播具備交互能力影锈。例如用在帶屏幕的智能音箱,虛擬主播就可以發(fā)展成為虛擬私人助理,用戶可以從單純與聲音交互變成與一個(gè)逼真的虛擬人物交互精居。
這么多很牛的技術(shù),具體會(huì)應(yīng)用在哪里潜必?
搜狗希望可以讓人和機(jī)器的交互更自然靴姿。接下來我們會(huì)推出更完整的虛擬主播,它能跟你在互動(dòng)時(shí)開始具有自己的表情磁滚,甚至模仿具體的人的聲音跟你去互動(dòng)佛吓,跟用戶的交互更自然親切。
自然交互方面垂攘,搜狗涉及的技術(shù)包括語音識別與合成维雇、圖像識別與合成等。其中晒他,搜狗中文語音識別準(zhǔn)確率已經(jīng)做到 98%吱型。
目前,搜狗輸入法已經(jīng)是中國最大的語音輸入引擎陨仅,為我們的語音交互研究積累了大量語料和用戶行為基礎(chǔ)津滞。接下來,我們會(huì)把更多的工作聚焦到語種灼伤、方言触徐、麥克風(fēng)矩陣,以及語音的糾錯(cuò)修改等狐赡。
除了語音識別以外撞鹉,我們開始嘗試對于表情做更多的理解,其中包括:
唇語識別颖侄,即機(jī)器通過圖像識別捕捉人嘴唇運(yùn)動(dòng)鸟雏,并建立識別模型。搜狗中文唇語識別技術(shù)在垂直應(yīng)用領(lǐng)域中的準(zhǔn)確率超過 90%览祖。
情感遷移技術(shù)崔慧,即生成相同音色,實(shí)現(xiàn)個(gè)性化語音合成穴墅。這一技術(shù)對聲音結(jié)構(gòu)惶室,主要在風(fēng)格硫嘶、音色等方面浓若,有更深層次的理解。
基于以上幾項(xiàng)技術(shù)聯(lián)合建模描姚,接下來我們會(huì)推出更完整的虛擬主播松捉,它能跟你在互動(dòng)時(shí)具備自己的表情夹界,甚至模仿具體的人的聲音跟你去互動(dòng),從而跟用戶的交互變得更自然親切隘世。
這么多很牛的技術(shù)可柿,怎么賺錢鸠踪?
我們認(rèn)為,靠技術(shù)創(chuàng)新复斥,可以獲得巨大的市場份額营密。
過去,搜狗主要依靠搜索廣告盈利目锭,提供的是人和信息的服務(wù)评汰。伴隨 AI 技術(shù)的應(yīng)用,用戶能夠與機(jī)器進(jìn)行更自然的語言交互痢虹。另外被去,機(jī)器通過計(jì)算,對語言邏輯進(jìn)行處理奖唯,能給用戶提供更精準(zhǔn)的答案惨缆。
在 AI 技術(shù)的幫助下,這一模式會(huì)獲得更大的增值丰捷。這一競爭力的直接體現(xiàn)就在于收入的提升踪央。我們認(rèn)為,靠技術(shù)創(chuàng)新瓢阴,可以獲得巨大的市場份額畅蹂。
概括來講,我們的盈利現(xiàn)在分成三大部分:
- 搜索引擎:搜狗在國內(nèi)占有 18% 的市場份額荣恐,一年收入規(guī)模達(dá)到 60 億液斜。
- 搜狗輸入法:幫助中國人更好的用中文表達(dá)自己的想法,目前叠穆,搜狗輸入法在中國 PC 和手機(jī)上都處于相對壟斷的位置少漆。
- 翻譯:今年我們推出了新的智能硬件,搜狗旅行翻譯寶和搜狗錄音翻譯筆硼被,兩款以 AI 翻譯為核心示损,能夠幫大家解決語言問題的產(chǎn)品。這些產(chǎn)品和搜狗的輸入法是一脈相承的嚷硫,也是幫大家表達(dá)和獲取信息检访,而范圍從表達(dá)中文,獲取中文信息仔掸,擴(kuò)展到了獲取全世界的信息脆贵,和全世界對話。
另外起暮,在電商和客服等垂直行業(yè)卖氨,我們會(huì)尋求更大的突破。例如通過人機(jī)結(jié)合,幫助電商人員更好的表達(dá)他們的想法筒捺,從而更方便的提供電商咨詢等服務(wù)柏腻。
從「造硬件」到「賣硬件」,搜狗這家互聯(lián)網(wǎng)公司有什么心得系吭?
一個(gè)新的產(chǎn)品出來之后五嫂,從用戶對它有大概的認(rèn)知,到真正去使用村斟,再到去進(jìn)行口碑傳播,需要一個(gè)過程抛猫。
我們知道蟆盹,一個(gè)新的產(chǎn)品出來之后,從用戶對它有大概的認(rèn)知闺金,到真正去使用逾滥,再到去進(jìn)行口碑傳播,需要一個(gè)過程败匹。
以搜狗的翻譯寶和錄音翻譯筆這兩款產(chǎn)品為例寨昙,從產(chǎn)品角度來講,目前整個(gè)翻譯市場還是相對比較垂直掀亩、小眾舔哪。我們的翻譯類產(chǎn)品從推出到現(xiàn)在僅有幾個(gè)月時(shí)間,在這期間槽棍,用戶逐漸形成了對產(chǎn)品捉蚤、技術(shù)、企業(yè)的認(rèn)知炼七。
最終缆巧,這兩款產(chǎn)品的市場反饋也都不錯(cuò):翻譯寶在首發(fā)日開售 1 小時(shí)后,各地就陸續(xù)售罄豌拙,當(dāng)日銷售額突破 1000 萬陕悬;搜狗錄音翻譯筆發(fā)售前在京東平臺的預(yù)約量超過 11 萬。
未來按傅,無論是在旅游還是在商務(wù)場景捉超,跨語言交流市場將會(huì)巨大的發(fā)展?jié)摿Γ压穼⒋俗鳛橹匾繕?biāo)并有所作為唯绍。
關(guān)于川總爆料今年年內(nèi)還會(huì)推出 4 款新硬件狂秦,可以了解更多嗎?
可以透露的信息是推捐,它們是以語言為核心的裂问,2C 的、便攜性產(chǎn)品。
這些新產(chǎn)品目前還處于保密階段堪簿,可以透露的信息是痊乾,它們是以語言為核心的,2C 的椭更、便攜性產(chǎn)品哪审。
在智能硬件布局上,搜狗遵循的核心的邏輯是虑瀑,產(chǎn)品具有核心的語音湿滓、語言交互技術(shù),并為某個(gè)和用戶個(gè)人直接相關(guān)舌狗、真實(shí)落地的場景打造叽奥。