搜狗吳滔：聽覺+視覺才能組成一個(gè)完整的翻譯機(jī)產(chǎn)品滞造，離線翻譯是搜狗的「獨(dú)家秘籍」| WARE 2018

活動(dòng)報(bào)道 |

2018-04-24

搜狗吳滔：聽覺+視覺才能組成一個(gè)完整的翻譯機(jī)產(chǎn)品，離線翻譯是搜狗的「獨(dú)家秘籍」| WARE 2018

對于很多公司來說铝条，做硬件是一個(gè)很難靖苇，卻又無法回避的問題。

談?wù)?/a>

「對于很多公司來說顾复，做硬件是一個(gè)很難班挖，卻又無法回避的問題鲁捏。」

在深圳灣「WARE 2018 新硬件峰會(huì)」上萧芙，搜狗公司副總裁给梅、搜狗旅行翻譯寶項(xiàng)目負(fù)責(zé)人吳滔很坦誠的表達(dá)出自己對于互聯(lián)網(wǎng)公司做硬件的理解。

到目前為止动羽，搜狗一共推出過三款智能硬件，第一款是三年前推出的智能手表「糖貓」渔期，另外兩款則是今年 1 月份發(fā)布的「搜狗旅行翻譯寶」及「搜狗速記翻譯筆」运吓。3 月 12 日，搜狗翻譯寶在京東首發(fā)疯趟，首發(fā)當(dāng)日銷售額便突破了 1000 萬拘哨。

吳滔認(rèn)為，出境旅游是 AI 翻譯技術(shù)一個(gè)核心的應(yīng)用場景信峻，而用戶的需求聚焦在聽得懂及看得懂兩個(gè)層面倦青，搜狗的翻譯產(chǎn)品依據(jù)這兩個(gè)核心需求已經(jīng)有了足夠的技術(shù)積累：

在「聽」的方面，搜狗的語音識(shí)別+語義理解準(zhǔn)確率達(dá) 97%盹舞，并且離線翻譯結(jié)果媲美在線水平产镐。雙麥克風(fēng)陣列技術(shù)能夠保證拾音清晰√卟剑基于搜狗獨(dú)創(chuàng)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)癣亚，能實(shí)現(xiàn) 61 種語言互譯。

在「看」的方面获印，目前搜狗的 OCR 圖像識(shí)別技術(shù)準(zhǔn)確率可達(dá) 96%述雾，能有效解決光線不足、抖動(dòng)、扭曲绰咽、字體折行等問題菇肃，經(jīng)由全卷積神經(jīng)網(wǎng)絡(luò)算法處理，形成準(zhǔn)確的文本翻譯取募。

目前搜狗翻譯產(chǎn)品覆蓋軟硬件琐谤，已經(jīng)在全球積累了超過 1000 萬用戶，日均翻譯請求達(dá) 1.4 億次玩敏，交互翻譯方式包括語音斗忌、對話、文字翻譯和圖像翻譯旺聚，字符規(guī)模達(dá) 200 億規(guī)模织阳。

吳滔表示，搜狗希望用 AI 翻譯打破語言壁壘砰粹，幫助用戶跨語言表達(dá)和獲取信息唧躲。而智能硬件是互聯(lián)網(wǎng)公司 AI 能力落地最好的體現(xiàn)，未來碱璃，搜狗會(huì)有更多硬件產(chǎn)品的探索弄痹。

以下是吳滔在「WARE 2018 新硬件峰會(huì)」上的演講實(shí)錄，在不改變原意的基礎(chǔ)上略有刪減：

演講嘉賓：吳滔/搜狗公司副總裁嵌器、搜狗旅行翻譯寶項(xiàng)目負(fù)責(zé)人

演講主題：搜狗的 AI 翻譯應(yīng)用之路

大家好肛真，今天主要給大家分享一下搜狗 AI 翻譯的應(yīng)用之路。

搜狗公司是中國第四大互聯(lián)網(wǎng)公司爽航。我們主要有兩個(gè)產(chǎn)品：一個(gè)是搜索引擎蚓让，移動(dòng)搜索引擎領(lǐng)域搜狗是第二大；另外一個(gè)產(chǎn)品是搜狗的輸入法讥珍，在輸入法里面我們是屬于領(lǐng)先的位置历极，是中國第一大輸入法。

搜狗本身是一家技術(shù)公司串述，聚焦 IO 的場景执解。整個(gè)搜狗在人工智能上的布局，主要是圍繞著 IO纲酗，IO 的主要載體就是語言衰腌。無論是輸入法還是搜索，都有一個(gè)很相似的特征：有用戶的輸入觅赊，通過用戶輸入之后右蕊，我們?nèi)ダ斫馑軌蛲茰y用戶的意圖吮螺，幫助他饶囚，給到他想要的東西帕翻。

搜狗的人工智能布局，是以認(rèn)知為主體的萝风，分為聽覺認(rèn)知和視覺認(rèn)知嘀掸。

聽覺認(rèn)知包含語音識(shí)別、TTS规惰、聲紋識(shí)別睬塌，這些技術(shù)已經(jīng)比較成熟了。搜狗的語音識(shí)別+語義理解準(zhǔn)確率達(dá) 97%歇万，并且離線翻譯結(jié)果媲美在線水平揩晴。雙麥克風(fēng)陣列技術(shù)能夠保證拾音清晰√盎牵基于搜狗獨(dú)創(chuàng)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)硫兰，能實(shí)現(xiàn) 61 種語言互譯。搜狗在這些基礎(chǔ)技術(shù)上還做了風(fēng)格的遷移寒锚、個(gè)性化語音的標(biāo)注和身份識(shí)別劫映，并已經(jīng)比較成熟的應(yīng)用到現(xiàn)在的很多產(chǎn)品上。

視覺認(rèn)知包含 OCR壕曼、唇語識(shí)別苏研、狗臉識(shí)別等等等浊。目前搜狗的 OCR 圖像識(shí)別技術(shù)準(zhǔn)確率可達(dá) 96%腮郊，能有效解決光線不足、抖動(dòng)筹燕、扭曲轧飞、字體折行等問題，經(jīng)由全卷積神經(jīng)網(wǎng)絡(luò)算法處理撒踪，形成準(zhǔn)確的文本翻譯过咬。

問答，則是我們對于識(shí)別之后的文本制妄，如何能夠理解用戶的意圖掸绞，同時(shí)能夠回答用戶的問題，這其實(shí)與搜索的原理是相同的耕捞。至于翻譯衔掸，是從一種文本轉(zhuǎn)換成另外一種文本，其實(shí)跟整個(gè)交互邏輯相關(guān)俺抽，比如說從語音的識(shí)別到合成敞映，有了整個(gè)循環(huán)的基礎(chǔ)，我們才能把翻譯做得更好磷斧。

這是我們在人工智能上面獲得的一些成績（見 PPT）振愿，剛剛拿到了視覺識(shí)別領(lǐng)域國際大賽的獎(jiǎng)項(xiàng)捷犹，我們提交的深度模型打破了世界紀(jì)錄，在國際學(xué)術(shù)賽事 WMT 中獲得中英機(jī)器翻譯全球第一名冕末。NTCIR 是日本短文本交互類比賽萍歉，看把 Twitter、微博這些社交內(nèi)容分析輸入其中档桃，看能不能找到相關(guān)的匹配度翠桦，這里面我們也拿到第一。

跨語言搜索是搜狗引擎上比較突出的特色胳蛮，我們的英文搜索是業(yè)內(nèi)首個(gè)跨語言的檢索產(chǎn)品销凑，不僅能讓我們檢索到重要的英文文獻(xiàn)，更能夠讓中國人了解到國外最先進(jìn)的科技類的仅炊、學(xué)術(shù)文本界和輿論界的消息斗幼。此外，我們還在 2016 年 11 月烏鎮(zhèn)大會(huì)上發(fā)布了首個(gè)基于 NLP 深度神經(jīng)網(wǎng)絡(luò)的商用同聲傳譯產(chǎn)品抚垄。

剛剛講了這么多蜕窿，回歸到搜狗的使命，那就是讓表達(dá)和獲取信息更簡單呆馁。I 與 O 一個(gè)是輸入桐经、一個(gè)是輸出，翻譯就是讓跨語言的表達(dá)和獲取信息更簡單浙滤。

講完跟搜狗人工智能戰(zhàn)略相關(guān)的產(chǎn)品阴挣，接下來講講搜狗是如何落地應(yīng)用的。

做硬件這件事情纺腊，是很多公司現(xiàn)在很頭疼畔咧，卻又很難回避的問題。最早的時(shí)候揖膜，互聯(lián)網(wǎng)架構(gòu)了一個(gè)虛擬世界誓沸，我們從最早的原子世界里構(gòu)思出來一個(gè)新的虛擬世界，這就是互聯(lián)網(wǎng)的價(jià)值∫妓冢現(xiàn)在互聯(lián)網(wǎng)已經(jīng)非常成熟了拜隧，但是依然還有很多應(yīng)用場景是沒有辦法覆蓋到的。在這些應(yīng)用場景中趁仙，我們需要一些新的實(shí)物載體和新的技術(shù)才可以 touch 到用戶的需求洪添，因此我們需要通過 IoT 來連接到更多場景。

搜狗在傳統(tǒng)翻譯領(lǐng)域都是 toB 端的幸撕，所以我們思考以出境旅游作為一個(gè) to C 的核心的場景薇组。圍繞這個(gè)場景，我們通過深度的調(diào)研與洞察坐儿，認(rèn)為用戶到國外旅游律胀，他的需求會(huì)聚焦在兩件事情上：一是要能聽得懂宋光，二是要能看得懂。

我們在推出搜狗旅行翻譯寶之前炭菌，已經(jīng)有一些翻譯機(jī)產(chǎn)品進(jìn)入市場了罪佳，包括訊飛、百度等公司都推出了一些相關(guān)產(chǎn)品黑低。但我有兩個(gè)點(diǎn)不太理解：第一是這些產(chǎn)品都沒有屏幕赘艳，雖然你的語音識(shí)別準(zhǔn)確率比較高，但是在你不懂英文或者不懂其他語言的情況下克握，如何確認(rèn)對方說的是什么蕾管，這個(gè)問題還是很大的；第二是沒有攝像頭菩暗，我們東方人相對比較含蓄掰曾，在國外能不依賴別人完成的事情還是盡量自己完成，特別是看到路牌和菜單停团，可能不好意思問人家旷坦，所以在這些場景中，視覺翻譯也許這是比聽覺翻譯更重要的能力佑稠。

在解決「聽得懂」這個(gè)問題上秒梅，我們可以拆解成幾個(gè)方面：第一，網(wǎng)絡(luò)永遠(yuǎn)是痛點(diǎn)舌胶。很多朋友都體驗(yàn)過捆蜀，中國的 4G 網(wǎng)絡(luò)真的是全球領(lǐng)先的，我們在國內(nèi)可能沒什么感覺辆琅，但出過國的朋友都知道國外的網(wǎng)絡(luò)很惡劣漱办，我們在外面被吐槽的是網(wǎng)絡(luò)太卡頓，而且延時(shí)太長婉烟；另外，出入境的時(shí)候暇屋、飛機(jī)上也是沒有網(wǎng)絡(luò)的似袁，這時(shí)候該怎么辦？第二咐刨，在日常的會(huì)議或者環(huán)境很嘈雜的情況下昙衅，怎么能精準(zhǔn)的聽清別人說的話，因此過硬的拾音降噪能力很重要定鸟。

從技術(shù)維度解讀一下我們做了什么事情而涉。語音識(shí)別我不多講了，這方面大家都差不多联予，重點(diǎn)講講搜狗的算法積累啼县。

搜狗對機(jī)器翻譯技術(shù)很有信心材原，我們這個(gè)技術(shù)是跟清華的實(shí)驗(yàn)室聯(lián)合做的，中間有很多技術(shù)細(xì)節(jié)大家可能不是特別了解季眷。首先是端到端神經(jīng)機(jī)器翻譯模型余蟹，重點(diǎn)講一下，我們能做到把一個(gè)神經(jīng)網(wǎng)絡(luò)模型變得可視化子刮，這是重大的突破威酒，我們知道機(jī)器學(xué)習(xí)基本上是一個(gè)不可被描述的過程，很難被改進(jìn)挺峡，因而輸出的結(jié)果很難去優(yōu)化葵孤。而通過這種可視化的神經(jīng)網(wǎng)絡(luò)模型，這個(gè)技術(shù)能夠不斷被迭代優(yōu)化橱赠。在國際學(xué)術(shù)賽事 WMT 2017 中佛呻，我們的這項(xiàng)技術(shù)獲得人工評(píng)價(jià)指標(biāo)的雙向第一名。

翻譯這件事情病线，但凡涉及到人工智能吓著、但凡涉及到機(jī)器學(xué)習(xí)的，就是看數(shù)據(jù)送挑。搜狗本身是做大數(shù)據(jù)的公司绑莺，我們每天產(chǎn)生的語料長達(dá) 24 萬小時(shí)，調(diào)用次數(shù) 3.6 億次惕耕，再加上我們從自己的搜索引擎里面可以發(fā)掘上億的語料纺裁。有了這個(gè)數(shù)據(jù)的積累，這對我們訓(xùn)練模型是非常有益的司澎。

每天欺缘，在搜狗整個(gè)平臺(tái)上翻譯相關(guān)的請求，有 1.4 億次左右挤安，包含 200 億字符谚殊，活躍用戶超過 1000 萬用戶。交互翻譯方式包括語音蛤铜、對話嫩絮、文字翻譯和圖像翻譯。

這里也簡單分享一下围肥，為什么搜狗旅行翻譯寶的離線能力能做到這么好剿干，這是我們的獨(dú)家秘籍。現(xiàn)在很多友商穆刻，包括訊飛都說自己有離線能力置尔，但是把這個(gè)能力拿出來 PK 一下，我們毫不謙虛的講氢伟，他們跟我們的差距還是比較大的榜轿。為什么呢幽歼？里面有四個(gè)核心點(diǎn)：

第一，搜狗的語料數(shù)據(jù)量足夠大差导。上面已經(jīng)講過试躏，這里不再贅述。

第二设褐，我們的模式足夠完整颠蕴。在云端我們有上百 G 的資源和內(nèi)存可以做計(jì)算，但是一般要做到離線設(shè)備上挑戰(zhàn)就非常大≈觯現(xiàn)在主流手機(jī)的內(nèi)存大概 2-4G犀被，最高配的 6G，怎么把你的模型塞進(jìn)去外冀。

我們知道寡键，做一個(gè)機(jī)器和語音對話翻譯有三個(gè)模型：第一個(gè)是識(shí)別，能夠離線識(shí)別出你的語言雪隧；第二是通過機(jī)器翻譯西轩，將一種語言轉(zhuǎn)換成另一種語言；第三是把翻譯出來的東西讀出來脑沿。在翻譯機(jī)離線內(nèi)存嚴(yán)重受限的情況下如何把這三個(gè)模型放進(jìn)去藕畔？這就是把在線翻譯模型壓縮，搜狗能做到將翻譯模型壓縮至1/ 48 庄拇，極大的減少了占用內(nèi)存空間注服。

第三，語音運(yùn)算響應(yīng)速率可達(dá)百毫秒級(jí)措近。在離線的時(shí)候非常受限制溶弟。如果你的模型能做到足夠大，那你的效果一定是很好的瞭郑。但是這樣的話你的計(jì)算量很大辜御，效率可能很低，一句話可能需要一秒凰浮、兩秒才翻譯出來我抠。我們自己做了 EVA-Inference，極大提升了反應(yīng)速率袜茧，能達(dá)到離線百毫秒級(jí)實(shí)時(shí)響應(yīng)。

第四瓣窄，知識(shí)的提純能力笛厦。通過壓縮翻譯模型，翻譯效率也會(huì)隨之降低俺夕，例如當(dāng)你把模型壓到 1/4 的時(shí)候裳凸，準(zhǔn)確度和相關(guān)指標(biāo)品質(zhì)會(huì)極速下降贱鄙。于是我們就通過機(jī)器學(xué)習(xí)的技術(shù)，建立相應(yīng)的彌補(bǔ)模型姨谷，希望把準(zhǔn)確度和匹配度拉回來逗宁，這使得我們的離線翻譯水平足以「媲美在線水平」。

搜狗的翻譯技術(shù)已經(jīng)支持 24 種語言梦湘，覆蓋了 200 多個(gè)國家瞎颗。目前我們的離線主要做中英，中日捌议、中韓離線翻譯能力應(yīng)該會(huì)在未來的 2-3 個(gè)月內(nèi)發(fā)布哼拔，其他的語言翻譯主要是在線的。

OCR 是比較復(fù)雜的技術(shù)瓣颅，特別是文本和 logo倦逐，在圖像識(shí)別領(lǐng)域是很難的事情。搜狗旅行翻譯寶已經(jīng)能做到中英宫补、中日和中韓的 OCR檬姥，翻譯準(zhǔn)確率可達(dá) 96%。

OCR分了幾個(gè)部分粉怕，第一部分跟拍相關(guān)健民，你拍的像素、清晰度斋荞、光線荞雏、角度等等，這都有很大影響平酿；如果你拍的很糟糕凤优，那么誰都沒有辦法識(shí)別，這跟背景蜈彼、光線筑辨、拍攝角度相關(guān)。第二部分幸逆，OCR 識(shí)別的時(shí)候要先把文字摳出來棍辕，通過離線翻譯出來，然后替換成需要的文字还绘。一般行業(yè)內(nèi)講的準(zhǔn)確率 96% 是在相對標(biāo)準(zhǔn)情況下的文字識(shí)別率楚昭。

本身搜狗做旅行場景的初衷是為了做翻譯，隨著用戶多起來拍顷，前段時(shí)間我們的產(chǎn)品在京東上賣斷貨抚太，也看到了用戶的很多需求。慢慢地，行業(yè)的友商找我們談合作尿贫，我們就開始思考电媳，應(yīng)該把這樣一個(gè)產(chǎn)品從一個(gè)相對工具類的產(chǎn)品往服務(wù)類做更多轉(zhuǎn)化，所以未來其他覆蓋領(lǐng)域我們也會(huì)往助手方向延伸庆亡。

最后說一下我們所做事情的意義匾乓。我們認(rèn)為語言是一個(gè)很深?yuàn)W、很神圣的事情又谋，主要體現(xiàn)在兩個(gè)層面：

第一拼缝，語言是文化的載體。每個(gè)國家搂根、每個(gè)民族的語言都承載了特定的思維模式珍促，是文化的記錄及傳播載體；因此當(dāng)你對一種文化感興趣剩愧，你可以認(rèn)真的去學(xué)習(xí)它猪叙。

第二，語言也是人們溝通和交流的工具仁卷。從這個(gè)層面來講穴翩，不同語言背景的人之間就存在很多溝通壁壘，而這是完全可以通過 AI 技術(shù)來代替語言學(xué)習(xí)锦积，打破這層壁壘的芒帕。

未來我們學(xué)習(xí)一種新語言，更多是為了了解他們的思維方式與文化丰介。而如果你的需求僅僅是一對一的交流溝通背蟆，可能就不必再花費(fèi)精力在識(shí)別單詞、理解句法上哮幢，通過 AI 手段就完全能夠?qū)崿F(xiàn)带膀。而搜狗在做的，就是希望能成為這種打破交流壁壘的工具橙垢。

我的講演就到這兒垛叨。謝謝大家！

整理柜某、編輯：談?wù)蹳深圳灣

搜狗

WARE2018

翻譯機(jī)

深圳灣（微信公眾號(hào) ID：shenzhenware）是最早也是最活躍的硬件創(chuàng)新社區(qū)和媒體嗽元，關(guān)注「軟件+硬件」帶來的場景和交互創(chuàng)新，以及與平臺(tái)和應(yīng)用相連的產(chǎn)業(yè)鏈升級(jí)喂击。

版權(quán)聲明：本文系深圳灣原創(chuàng)剂癌，轉(zhuǎn)載或摘錄請先獲得授權(quán)。
深圳灣微信公眾號(hào)：shenzhenware翰绊。深圳灣同時(shí)在頭條號(hào)珍手、企鵝號(hào)、知乎等主流媒體站開設(shè)專欄板塊辞做，歡迎關(guān)注琳要。轉(zhuǎn)載、約稿秤茅、投稿稚补、團(tuán)隊(duì)報(bào)道請?jiān)诠娞?hào)對話框回復(fù)關(guān)鍵字并留下聯(lián)系方式。

上一篇：阿里 A.I.LAbs 推出「AI+車」方案實(shí)現(xiàn)「家車互聯(lián)」框喳，首批進(jìn)駐奔馳课幕、奧迪、沃爾沃三汽車巨頭

下一篇：還別說五垮，耳機(jī)鑲鉆乍惊，真好看！