售價(jià) 2999 元放仗,支持 34 種語言润绎,帶屏幕的訊飛翻譯機(jī) 2.0 能繼續(xù)領(lǐng)航翻譯機(jī)市場嗎?
搜狗吳滔:聽覺+視覺才能組成一個(gè)完整的翻譯機(jī)產(chǎn)品,離線翻譯是搜狗的「獨(dú)家秘籍」| WARE 2018
對于很多公司來說铝条,做硬件是一個(gè)很難靖苇,卻又無法回避的問題。
「對于很多公司來說顾复,做硬件是一個(gè)很難班挖,卻又無法回避的問題鲁捏。」
在深圳灣「WARE 2018 新硬件峰會(huì)」上萧芙,搜狗公司副總裁给梅、搜狗旅行翻譯寶項(xiàng)目負(fù)責(zé)人吳滔很坦誠的表達(dá)出自己對于互聯(lián)網(wǎng)公司做硬件的理解。
到目前為止动羽,搜狗一共推出過三款智能硬件,第一款是三年前推出的智能手表「糖貓」渔期,另外兩款則是今年 1 月份發(fā)布的「搜狗旅行翻譯寶」及「搜狗速記翻譯筆」运吓。3 月 12 日,搜狗翻譯寶在京東首發(fā)疯趟,首發(fā)當(dāng)日銷售額便突破了 1000 萬拘哨。
吳滔認(rèn)為,出境旅游是 AI 翻譯技術(shù)一個(gè)核心的應(yīng)用場景信峻,而用戶的需求聚焦在聽得懂及看得懂兩個(gè)層面倦青,搜狗的翻譯產(chǎn)品依據(jù)這兩個(gè)核心需求已經(jīng)有了足夠的技術(shù)積累:
在「聽」的方面,搜狗的語音識(shí)別+語義理解準(zhǔn)確率達(dá) 97%盹舞,并且離線翻譯結(jié)果媲美在線水平产镐。雙麥克風(fēng)陣列技術(shù)能夠保證拾音清晰√卟剑基于搜狗獨(dú)創(chuàng)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)癣亚,能實(shí)現(xiàn) 61 種語言互譯。
在「看」的方面获印,目前搜狗的 OCR 圖像識(shí)別技術(shù)準(zhǔn)確率可達(dá) 96%述雾,能有效解決光線不足、抖動(dòng)、扭曲绰咽、字體折行等問題菇肃,經(jīng)由全卷積神經(jīng)網(wǎng)絡(luò)算法處理,形成準(zhǔn)確的文本翻譯取募。
目前搜狗翻譯產(chǎn)品覆蓋軟硬件琐谤,已經(jīng)在全球積累了超過 1000 萬用戶,日均翻譯請求達(dá) 1.4 億次玩敏,交互翻譯方式包括語音斗忌、對話、文字翻譯和圖像翻譯旺聚,字符規(guī)模達(dá) 200 億規(guī)模织阳。
吳滔表示,搜狗希望用 AI 翻譯打破語言壁壘砰粹,幫助用戶跨語言表達(dá)和獲取信息唧躲。而智能硬件是互聯(lián)網(wǎng)公司 AI 能力落地最好的體現(xiàn),未來碱璃,搜狗會(huì)有更多硬件產(chǎn)品的探索弄痹。
以下是吳滔在「WARE 2018 新硬件峰會(huì)」上的演講實(shí)錄,在不改變原意的基礎(chǔ)上略有刪減:
演講嘉賓:吳滔/搜狗公司副總裁嵌器、搜狗旅行翻譯寶項(xiàng)目負(fù)責(zé)人
演講主題:搜狗的 AI 翻譯應(yīng)用之路
大家好肛真,今天主要給大家分享一下搜狗 AI 翻譯的應(yīng)用之路。
搜狗公司是中國第四大互聯(lián)網(wǎng)公司爽航。我們主要有兩個(gè)產(chǎn)品:一個(gè)是搜索引擎蚓让,移動(dòng)搜索引擎領(lǐng)域搜狗是第二大;另外一個(gè)產(chǎn)品是搜狗的輸入法讥珍,在輸入法里面我們是屬于領(lǐng)先的位置历极,是中國第一大輸入法。
搜狗本身是一家技術(shù)公司串述,聚焦 IO 的場景执解。整個(gè)搜狗在人工智能上的布局,主要是圍繞著 IO纲酗,IO 的主要載體就是語言衰腌。無論是輸入法還是搜索,都有一個(gè)很相似的特征:有用戶的輸入觅赊,通過用戶輸入之后右蕊,我們?nèi)ダ斫馑軌蛲茰y用戶的意圖吮螺,幫助他饶囚,給到他想要的東西帕翻。
搜狗的人工智能布局,是以認(rèn)知為主體的萝风,分為聽覺認(rèn)知和視覺認(rèn)知嘀掸。
聽覺認(rèn)知包含語音識(shí)別、TTS规惰、聲紋識(shí)別睬塌,這些技術(shù)已經(jīng)比較成熟了。搜狗的語音識(shí)別+語義理解準(zhǔn)確率達(dá) 97%歇万,并且離線翻譯結(jié)果媲美在線水平揩晴。雙麥克風(fēng)陣列技術(shù)能夠保證拾音清晰√盎牵基于搜狗獨(dú)創(chuàng)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)硫兰,能實(shí)現(xiàn) 61 種語言互譯。搜狗在這些基礎(chǔ)技術(shù)上還做了風(fēng)格的遷移寒锚、個(gè)性化語音的標(biāo)注和身份識(shí)別劫映,并已經(jīng)比較成熟的應(yīng)用到現(xiàn)在的很多產(chǎn)品上。
視覺認(rèn)知包含 OCR壕曼、唇語識(shí)別苏研、狗臉識(shí)別等等等浊。目前搜狗的 OCR 圖像識(shí)別技術(shù)準(zhǔn)確率可達(dá) 96%腮郊,能有效解決光線不足、抖動(dòng)筹燕、扭曲轧飞、字體折行等問題,經(jīng)由全卷積神經(jīng)網(wǎng)絡(luò)算法處理撒踪,形成準(zhǔn)確的文本翻譯过咬。
問答,則是我們對于識(shí)別之后的文本制妄,如何能夠理解用戶的意圖掸绞,同時(shí)能夠回答用戶的問題,這其實(shí)與搜索的原理是相同的耕捞。至于翻譯衔掸,是從一種文本轉(zhuǎn)換成另外一種文本,其實(shí)跟整個(gè)交互邏輯相關(guān)俺抽,比如說從語音的識(shí)別到合成敞映,有了整個(gè)循環(huán)的基礎(chǔ),我們才能把翻譯做得更好磷斧。
這是我們在人工智能上面獲得的一些成績(見 PPT)振愿,剛剛拿到了視覺識(shí)別領(lǐng)域國際大賽的獎(jiǎng)項(xiàng)捷犹,我們提交的深度模型打破了世界紀(jì)錄,在國際學(xué)術(shù)賽事 WMT 中獲得中英機(jī)器翻譯全球第一名冕末。NTCIR 是日本短文本交互類比賽萍歉,看把 Twitter、微博這些社交內(nèi)容分析輸入其中档桃,看能不能找到相關(guān)的匹配度翠桦,這里面我們也拿到第一。
跨語言搜索是搜狗引擎上比較突出的特色胳蛮,我們的英文搜索是業(yè)內(nèi)首個(gè)跨語言的檢索產(chǎn)品销凑,不僅能讓我們檢索到重要的英文文獻(xiàn),更能夠讓中國人了解到國外最先進(jìn)的科技類的仅炊、學(xué)術(shù)文本界和輿論界的消息斗幼。此外,我們還在 2016 年 11 月烏鎮(zhèn)大會(huì)上發(fā)布了首個(gè)基于 NLP 深度神經(jīng)網(wǎng)絡(luò)的商用同聲傳譯產(chǎn)品抚垄。
剛剛講了這么多蜕窿,回歸到搜狗的使命,那就是讓表達(dá)和獲取信息更簡單呆馁。I 與 O 一個(gè)是輸入桐经、一個(gè)是輸出,翻譯就是讓跨語言的表達(dá)和獲取信息更簡單浙滤。
講完跟搜狗人工智能戰(zhàn)略相關(guān)的產(chǎn)品阴挣,接下來講講搜狗是如何落地應(yīng)用的。
做硬件這件事情纺腊,是很多公司現(xiàn)在很頭疼畔咧,卻又很難回避的問題。最早的時(shí)候揖膜,互聯(lián)網(wǎng)架構(gòu)了一個(gè)虛擬世界誓沸,我們從最早的原子世界里構(gòu)思出來一個(gè)新的虛擬世界,這就是互聯(lián)網(wǎng)的價(jià)值∫妓冢現(xiàn)在互聯(lián)網(wǎng)已經(jīng)非常成熟了拜隧,但是依然還有很多應(yīng)用場景是沒有辦法覆蓋到的。在這些應(yīng)用場景中趁仙,我們需要一些新的實(shí)物載體和新的技術(shù)才可以 touch 到用戶的需求洪添,因此我們需要通過 IoT 來連接到更多場景。
搜狗在傳統(tǒng)翻譯領(lǐng)域都是 toB 端的幸撕,所以我們思考以出境旅游作為一個(gè) to C 的核心的場景薇组。圍繞這個(gè)場景,我們通過深度的調(diào)研與洞察坐儿,認(rèn)為用戶到國外旅游律胀,他的需求會(huì)聚焦在兩件事情上:一是要能聽得懂宋光,二是要能看得懂。
我們在推出搜狗旅行翻譯寶之前炭菌,已經(jīng)有一些翻譯機(jī)產(chǎn)品進(jìn)入市場了罪佳,包括訊飛、百度等公司都推出了一些相關(guān)產(chǎn)品黑低。但我有兩個(gè)點(diǎn)不太理解:第一是這些產(chǎn)品都沒有屏幕赘艳,雖然你的語音識(shí)別準(zhǔn)確率比較高,但是在你不懂英文或者不懂其他語言的情況下克握,如何確認(rèn)對方說的是什么蕾管,這個(gè)問題還是很大的;第二是沒有攝像頭菩暗,我們東方人相對比較含蓄掰曾,在國外能不依賴別人完成的事情還是盡量自己完成,特別是看到路牌和菜單停团,可能不好意思問人家旷坦,所以在這些場景中,視覺翻譯也許這是比聽覺翻譯更重要的能力佑稠。
在解決「聽得懂」這個(gè)問題上秒梅,我們可以拆解成幾個(gè)方面:第一,網(wǎng)絡(luò)永遠(yuǎn)是痛點(diǎn)舌胶。很多朋友都體驗(yàn)過捆蜀,中國的 4G 網(wǎng)絡(luò)真的是全球領(lǐng)先的,我們在國內(nèi)可能沒什么感覺辆琅,但出過國的朋友都知道國外的網(wǎng)絡(luò)很惡劣漱办,我們在外面被吐槽的是網(wǎng)絡(luò)太卡頓,而且延時(shí)太長婉烟;另外,出入境的時(shí)候暇屋、飛機(jī)上也是沒有網(wǎng)絡(luò)的似袁,這時(shí)候該怎么辦?第二咐刨,在日常的會(huì)議或者環(huán)境很嘈雜的情況下昙衅,怎么能精準(zhǔn)的聽清別人說的話,因此過硬的拾音降噪能力很重要定鸟。
從技術(shù)維度解讀一下我們做了什么事情而涉。語音識(shí)別我不多講了,這方面大家都差不多联予,重點(diǎn)講講搜狗的算法積累啼县。
搜狗對機(jī)器翻譯技術(shù)很有信心材原,我們這個(gè)技術(shù)是跟清華的實(shí)驗(yàn)室聯(lián)合做的,中間有很多技術(shù)細(xì)節(jié)大家可能不是特別了解季眷。首先是端到端神經(jīng)機(jī)器翻譯模型余蟹,重點(diǎn)講一下,我們能做到把一個(gè)神經(jīng)網(wǎng)絡(luò)模型變得可視化子刮,這是重大的突破威酒,我們知道機(jī)器學(xué)習(xí)基本上是一個(gè)不可被描述的過程,很難被改進(jìn)挺峡,因而輸出的結(jié)果很難去優(yōu)化葵孤。而通過這種可視化的神經(jīng)網(wǎng)絡(luò)模型,這個(gè)技術(shù)能夠不斷被迭代優(yōu)化橱赠。在國際學(xué)術(shù)賽事 WMT 2017 中佛呻,我們的這項(xiàng)技術(shù)獲得人工評(píng)價(jià)指標(biāo)的雙向第一名。
翻譯這件事情病线,但凡涉及到人工智能吓著、但凡涉及到機(jī)器學(xué)習(xí)的,就是看數(shù)據(jù)送挑。搜狗本身是做大數(shù)據(jù)的公司绑莺,我們每天產(chǎn)生的語料長達(dá) 24 萬小時(shí),調(diào)用次數(shù) 3.6 億次惕耕,再加上我們從自己的搜索引擎里面可以發(fā)掘上億的語料纺裁。有了這個(gè)數(shù)據(jù)的積累,這對我們訓(xùn)練模型是非常有益的司澎。
每天欺缘,在搜狗整個(gè)平臺(tái)上翻譯相關(guān)的請求,有 1.4 億次左右挤安,包含 200 億字符谚殊,活躍用戶超過 1000 萬用戶。交互翻譯方式包括語音蛤铜、對話嫩絮、文字翻譯和圖像翻譯。
這里也簡單分享一下围肥,為什么搜狗旅行翻譯寶的離線能力能做到這么好剿干,這是我們的獨(dú)家秘籍。現(xiàn)在很多友商穆刻,包括訊飛都說自己有離線能力置尔,但是把這個(gè)能力拿出來 PK 一下,我們毫不謙虛的講氢伟,他們跟我們的差距還是比較大的榜轿。為什么呢幽歼?里面有四個(gè)核心點(diǎn):
第一,搜狗的語料數(shù)據(jù)量足夠大差导。上面已經(jīng)講過试躏,這里不再贅述。
第二设褐,我們的模式足夠完整颠蕴。在云端我們有上百 G 的資源和內(nèi)存可以做計(jì)算,但是一般要做到離線設(shè)備上挑戰(zhàn)就非常大≈觯現(xiàn)在主流手機(jī)的內(nèi)存大概 2-4G犀被,最高配的 6G,怎么把你的模型塞進(jìn)去外冀。
我們知道寡键,做一個(gè)機(jī)器和語音對話翻譯有三個(gè)模型:第一個(gè)是識(shí)別,能夠離線識(shí)別出你的語言雪隧;第二是通過機(jī)器翻譯西轩,將一種語言轉(zhuǎn)換成另一種語言;第三是把翻譯出來的東西讀出來脑沿。在翻譯機(jī)離線內(nèi)存嚴(yán)重受限的情況下如何把這三個(gè)模型放進(jìn)去藕畔?這就是把在線翻譯模型壓縮,搜狗能做到將翻譯模型壓縮至1/ 48 庄拇,極大的減少了占用內(nèi)存空間注服。
第三,語音運(yùn)算響應(yīng)速率可達(dá)百毫秒級(jí)措近。在離線的時(shí)候非常受限制溶弟。如果你的模型能做到足夠大,那你的效果一定是很好的瞭郑。但是這樣的話你的計(jì)算量很大辜御,效率可能很低,一句話可能需要一秒凰浮、兩秒才翻譯出來我抠。我們自己做了 EVA-Inference,極大提升了反應(yīng)速率袜茧,能達(dá)到離線百毫秒級(jí)實(shí)時(shí)響應(yīng)。
第四瓣窄,知識(shí)的提純能力笛厦。通過壓縮翻譯模型,翻譯效率也會(huì)隨之降低俺夕,例如當(dāng)你把模型壓到 1/4 的時(shí)候裳凸,準(zhǔn)確度和相關(guān)指標(biāo)品質(zhì)會(huì)極速下降贱鄙。于是我們就通過機(jī)器學(xué)習(xí)的技術(shù),建立相應(yīng)的彌補(bǔ)模型姨谷,希望把準(zhǔn)確度和匹配度拉回來逗宁,這使得我們的離線翻譯水平足以「媲美在線水平」。
搜狗的翻譯技術(shù)已經(jīng)支持 24 種語言梦湘,覆蓋了 200 多個(gè)國家瞎颗。目前我們的離線主要做中英,中日捌议、中韓離線翻譯能力應(yīng)該會(huì)在未來的 2-3 個(gè)月內(nèi)發(fā)布哼拔,其他的語言翻譯主要是在線的。
OCR 是比較復(fù)雜的技術(shù)瓣颅,特別是文本和 logo倦逐,在圖像識(shí)別領(lǐng)域是很難的事情。搜狗旅行翻譯寶已經(jīng)能做到中英宫补、中日和中韓的 OCR檬姥,翻譯準(zhǔn)確率可達(dá) 96%。
OCR分了幾個(gè)部分粉怕,第一部分跟拍相關(guān)健民,你拍的像素、清晰度斋荞、光線荞雏、角度等等,這都有很大影響平酿;如果你拍的很糟糕凤优,那么誰都沒有辦法識(shí)別,這跟背景蜈彼、光線筑辨、拍攝角度相關(guān)。第二部分 幸逆,OCR 識(shí)別的時(shí)候要先把文字摳出來棍辕,通過離線翻譯出來,然后替換成需要的文字还绘。一般行業(yè)內(nèi)講的準(zhǔn)確率 96% 是在相對標(biāo)準(zhǔn)情況下的文字識(shí)別率楚昭。
本身搜狗做旅行場景的初衷是為了做翻譯,隨著用戶多起來拍顷,前段時(shí)間我們的產(chǎn)品在京東上賣斷貨抚太,也看到了用戶的很多需求。慢慢地,行業(yè)的友商找我們談合作尿贫,我們就開始思考电媳,應(yīng)該把這樣一個(gè)產(chǎn)品從一個(gè)相對工具類的產(chǎn)品往服務(wù)類做更多轉(zhuǎn)化,所以未來其他覆蓋領(lǐng)域我們也會(huì)往助手方向延伸庆亡。
最后說一下我們所做事情的意義匾乓。我們認(rèn)為語言是一個(gè)很深?yuàn)W、很神圣的事情又谋,主要體現(xiàn)在兩個(gè)層面:
第一拼缝,語言是文化的載體。每個(gè)國家搂根、每個(gè)民族的語言都承載了特定的思維模式珍促,是文化的記錄及傳播載體;因此當(dāng)你對一種文化感興趣剩愧,你可以認(rèn)真的去學(xué)習(xí)它猪叙。
第二,語言也是人們溝通和交流的工具仁卷。從這個(gè)層面來講穴翩,不同語言背景的人之間就存在很多溝通壁壘,而這是完全可以通過 AI 技術(shù)來代替語言學(xué)習(xí)锦积,打破這層壁壘的芒帕。
未來我們學(xué)習(xí)一種新語言,更多是為了了解他們的思維方式與文化丰介。而如果你的需求僅僅是一對一的交流溝通背蟆,可能就不必再花費(fèi)精力在識(shí)別單詞、理解句法上哮幢,通過 AI 手段就完全能夠?qū)崿F(xiàn)带膀。而搜狗在做的,就是希望能成為這種打破交流壁壘的工具橙垢。
我的講演就到這兒垛叨。謝謝大家!
整理柜某、編輯:談?wù)蹳深圳灣