從搜狗的語(yǔ)音技術(shù)發(fā)展史中注竿,我們來(lái)看平臺(tái)技術(shù)是如何落地的
從「語(yǔ)音」到「語(yǔ)言」的工作重心轉(zhuǎn)變晶默,搜狗如何實(shí)現(xiàn) AI 的跨越式發(fā)展丨WARE 2017
「語(yǔ)言」即思想和知識(shí)的載體,是 AI 理解人話的關(guān)鍵航攒。
智能語(yǔ)音要做到越來(lái)越「智能」,則需要大量的訓(xùn)練數(shù)據(jù)漠畜,國(guó)內(nèi)外不少做智能語(yǔ)音技術(shù)的搜索公司就有這點(diǎn)優(yōu)勢(shì)仅政。國(guó)內(nèi)的搜狗則是一家比較低調(diào)的公司,事實(shí)上盆驹,搜狗從 2013 年就開(kāi)始做智能語(yǔ)音技術(shù)圆丹,先后推出實(shí)時(shí)轉(zhuǎn)寫(xiě)、實(shí)時(shí)翻譯等功能躯喇。目前辫封,搜狗已與車(chē)載、家電廠商合作推出搭載其智能語(yǔ)音技術(shù)的智能車(chē)機(jī)廉丽、智能電視等產(chǎn)品倦微。
在去年的新硬件生態(tài)大會(huì)上,搜狗王小川做客深圳灣正压,暢談了人工智能為我們帶來(lái)的機(jī)遇欣福。在今年的「WARE 2017 語(yǔ)音智能平臺(tái)與應(yīng)用峰會(huì)」中, 搜狗公司語(yǔ)音交互技術(shù)中心總經(jīng)理和搜狗輸入法研究負(fù)責(zé)人王硯峰發(fā)表了『從語(yǔ)音到語(yǔ)言』的演講焦履,講述了搜狗在語(yǔ)音技術(shù)更新迭代過(guò)程中所做的主要工作拓劝。
AI 工作重心的轉(zhuǎn)移:從「語(yǔ)音」到「語(yǔ)言」
王硯峰指出,以往的語(yǔ)音助手之所以不夠「智能」嘉裤,是因?yàn)闄C(jī)器經(jīng)常沒(méi)「聽(tīng)」懂人話郑临,或者不能「理解」所聽(tīng)到的內(nèi)容。事實(shí)上屑宠,「語(yǔ)音」只是機(jī)器收集信息的一個(gè)入口厢洞,「語(yǔ)言」才是機(jī)器理解的所在,也就是說(shuō),機(jī)器要有知識(shí)并懂得如何思考躺翻。
在這幾年的時(shí)間里丧叽,搜狗一直在更新自己的語(yǔ)音技術(shù),因?yàn)橐庾R(shí)到這一點(diǎn)公你,逐漸將人工智能(AI)工作的重心從「語(yǔ)音」向「語(yǔ)言」技術(shù)進(jìn)行轉(zhuǎn)移蠢正,解決大部分語(yǔ)音助手「聽(tīng)」不懂人話、難以實(shí)現(xiàn)多倫對(duì)話的窘境省店。其中最核心的是解決「語(yǔ)言」這重要一環(huán)嚣崭。
在產(chǎn)品演化的過(guò)程中,如何解決「語(yǔ)言」這一核心問(wèn)題懦傍?
那么雹舀,搜狗是通過(guò)哪些路徑解決這些困難的呢?王硯峰提出了以下幾點(diǎn):
第一粗俱,優(yōu)化語(yǔ)音識(shí)別的準(zhǔn)確率说榆,用深度學(xué)習(xí)和數(shù)據(jù)驅(qū)動(dòng)語(yǔ)音識(shí)別的進(jìn)步。 隨著搜狗輸入法所收集數(shù)據(jù)量的不斷提升寸认,技術(shù)也隨之更新并且使得深度學(xué)習(xí)技術(shù)不斷得到加強(qiáng)签财,語(yǔ)音識(shí)別的精確度因此也得到大幅度提高。另外偏塞,讓語(yǔ)音技術(shù)在更多硬件設(shè)備中落地唱蒸,進(jìn)一步解決噪音、口音灸叼、遠(yuǎn)場(chǎng)等問(wèn)題神汹。目前,搜狗輸入法每日的語(yǔ)音接收量達(dá)到 2.4 億次古今,等同于 20 萬(wàn)個(gè)小時(shí)的訓(xùn)練語(yǔ)料屁魏。
第二,即進(jìn)入設(shè)計(jì)+工程化的階段捉腥。例如要實(shí)現(xiàn)人與機(jī)器溝通過(guò)程中能夠「隨意打斷」的目標(biāo)氓拼,就需要利用工程化的方法,通過(guò)「喚醒」的方法讓機(jī)器理解人機(jī)對(duì)話過(guò)程中的關(guān)鍵指令抵碟。
第三桃漾,場(chǎng)景化、功能化立磁、知識(shí)化呈队。傳統(tǒng)的語(yǔ)音助手是一個(gè)開(kāi)放和通用的應(yīng)用剥槐,并不能有一個(gè)穩(wěn)定的預(yù)期唱歧。而將自然語(yǔ)言理解放在一個(gè)垂直的場(chǎng)景和功能上,并通過(guò)知識(shí)的整理,能夠?yàn)橛脩籼峁└玫娜藱C(jī)交互體驗(yàn)颅崩。如場(chǎng)景化后的車(chē)載語(yǔ)音助手以及智能電視語(yǔ)音助手几于。
如何讓語(yǔ)音識(shí)別技術(shù)做到真正的「智能」?
接下來(lái)沿后,則是要「死磕」語(yǔ)言沿彭,讓語(yǔ)音識(shí)別技術(shù)實(shí)現(xiàn)真正的「智能」。王硯峰總結(jié)出了搜狗以下的幾個(gè)關(guān)鍵做法:
一尖滚、追求掌握更先進(jìn)的自然語(yǔ)言理解和深度學(xué)習(xí)技術(shù)喉刘,這是推動(dòng)技術(shù)發(fā)展的根本。例如搜狗所推出的實(shí)時(shí)翻譯技術(shù)漆弄,就采用了目前業(yè)界里最先進(jìn)的架構(gòu)睦裳,相比 Google 深度學(xué)習(xí)層數(shù)達(dá)到的 8 層,搜狗目前的層數(shù)雖然少一些撼唾, 但已與國(guó)內(nèi)領(lǐng)先的百度達(dá)到持平的狀態(tài)廉邑。
二、在高頻應(yīng)用場(chǎng)景中通過(guò)產(chǎn)品創(chuàng)新帶來(lái)用戶數(shù)據(jù)迭代倒谷,提升對(duì)話能力蛛蒙。在機(jī)器學(xué)習(xí)中,數(shù)據(jù)量是最重要的一環(huán)渤愁。AI 不能只談技術(shù)牵祟,而是應(yīng)該與產(chǎn)品結(jié)合起來(lái),或者讓好的產(chǎn)品驅(qū)動(dòng)語(yǔ)音技術(shù)的發(fā)展抖格。越多用戶使用的產(chǎn)品课舍,產(chǎn)品背后的技術(shù)能夠反向推動(dòng)語(yǔ)音技術(shù)的提升。
三他挎、讓搜索進(jìn)一步走向問(wèn)答筝尾。數(shù)據(jù)的不斷挖掘是自然語(yǔ)言進(jìn)步的重要基礎(chǔ),搜狗則利用搜索公司本身所擁有的這方面優(yōu)勢(shì)办桨,讓大量數(shù)據(jù)推動(dòng)技術(shù)的進(jìn)步筹淫。如讓機(jī)器基于搜索,并通過(guò)自然語(yǔ)言理解的方式對(duì)數(shù)據(jù)庫(kù)進(jìn)行解釋呢撞,提供知識(shí)問(wèn)答服務(wù)损姜。
總的來(lái)說(shuō),搜狗發(fā)展語(yǔ)音技術(shù)的關(guān)鍵可歸結(jié)為以下幾點(diǎn):
- 智能語(yǔ)音 = 語(yǔ)音入口 + 自然交互 + 知識(shí)計(jì)算
- 智能語(yǔ)音產(chǎn)品的發(fā)展路徑殊霞,就是不斷通過(guò)各種條件降低自然語(yǔ)言理解難度的一個(gè)過(guò)程摧阅。
- 語(yǔ)言是大腦的核心,是智能語(yǔ)音追求的終極目標(biāo)绷蹲。
- 我們不僅要追求先進(jìn)技術(shù)棒卷,還要同時(shí)在產(chǎn)品創(chuàng)新上給技術(shù)的進(jìn)化創(chuàng)造出更多條件顾孽。
- 讓輸入法走向?qū)υ挘屗阉髯呦騿?wèn)答比规。
問(wèn)答
Q:AI 的問(wèn)答機(jī)制是否都需要人參與梳理原始邏輯若厚?
A:一般是不需要的。
Q:搜狗的語(yǔ)音技術(shù)能否支持離線模式蜒什?
A:是测秸。
Q:搜狗有沒(méi)有像其他巨頭那樣提供 AI 公共平臺(tái)的戰(zhàn)略規(guī)劃?
A:會(huì)的灾常,搜狗應(yīng)該會(huì)在今年下半年提供開(kāi)放平臺(tái)霎冯。
Q:搜狗展示的語(yǔ)音識(shí)別翻譯的翻譯引擎是自家開(kāi)發(fā)的嗎?搜狗有在翻譯數(shù)據(jù)基礎(chǔ)上做自己的優(yōu)化嗎钞瀑?
A:搜狗的語(yǔ)音翻譯就是用的搜狗自己開(kāi)發(fā)的肃晚,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯,數(shù)據(jù)源也是網(wǎng)上抓的仔戈。搜狗有深度語(yǔ)言學(xué)習(xí)的基礎(chǔ)关串,很快就能構(gòu)建語(yǔ)音識(shí)別和機(jī)器翻譯的技術(shù)。
Q:語(yǔ)音技術(shù)有哪些最新的研究進(jìn)展监徘?
A:在人聲分離晋修、語(yǔ)音合成、陣列前端這幾個(gè)領(lǐng)域凰盔,大家都在嘗試深度學(xué)習(xí)的方法墓卦。更前沿的技術(shù),在沒(méi)有深度學(xué)習(xí)的領(lǐng)域嘗試工程化的方法去理解户敬,在傳統(tǒng)的領(lǐng)域通過(guò)深度學(xué)習(xí)來(lái)解決落剪,并且讓整個(gè)過(guò)程都深度學(xué)習(xí)化,端到端的語(yǔ)音識(shí)別雖然不成熟尿庐,但是都是大家努力的方向忠怖。
Q:目前國(guó)內(nèi)語(yǔ)音市場(chǎng)前景如何?
A:前景還是不錯(cuò)的抄瑟。這也是為什么創(chuàng)業(yè)公司和大公司凡泣,包括像小米這樣的智能硬件公司,都在智能語(yǔ)音領(lǐng)域布局皮假,這是大的趨勢(shì)鞋拟。但總體還是在非理性的狀態(tài)下,創(chuàng)業(yè)公司的估值偏高惹资,以后會(huì)慢慢的沉淀下來(lái)贺纲,小的創(chuàng)業(yè)公司會(huì)掛掉或被收購(gòu)。在語(yǔ)音褪测、自然語(yǔ)音處理猴誊、AI 等行業(yè)前沿的核心技術(shù)潦刃,最終都是大公司的賽道。
Q:為什么國(guó)內(nèi)智能音箱市場(chǎng)沒(méi)有國(guó)外那么火稠肘?
A:從文化的角度福铅,從體驗(yàn)的角度萝毛,從銷售的渠道项阴,國(guó)內(nèi)的智能音箱,與 Echo 都是有差距的笆包。
Q:搜狗和國(guó)內(nèi)其他語(yǔ)音廠商的方案相比有哪些優(yōu)勢(shì)环揽?如何評(píng)價(jià)其他廠商的方案?
A:國(guó)內(nèi)的語(yǔ)音廠商庵佣,長(zhǎng)遠(yuǎn)來(lái)看歉胶,比較看好搜狗和百度。這兩家公司在搜索和語(yǔ)音等方面還是比較完整的巴粪,有搜索地圖通今,有垂直搜索,從語(yǔ)音的入口到最終的服務(wù)肛根,是一個(gè)閉環(huán)辫塌,目前只有搜狗和百度能做到。其他公司派哲,科大訊飛臼氨、思必馳、云知聲芭届,可能相對(duì)只有中間環(huán)節(jié)的語(yǔ)音技術(shù)储矩,而沒(méi)有背后服務(wù)能力的支撐。
但是在目前的商業(yè)模式和市場(chǎng)環(huán)境下褂乍,靠提供技術(shù)解決方案的方式實(shí)現(xiàn)商業(yè)價(jià)值持隧,在國(guó)內(nèi)并沒(méi)有那么好的市場(chǎng)前景。對(duì)于提供這些技術(shù)解決方案的公司逃片,需要下沉到某一個(gè)垂直產(chǎn)業(yè)舆蝴,做更上游的事情,才能更好的實(shí)現(xiàn)商業(yè)價(jià)值题诵。比如科大訊飛洁仗,在教育領(lǐng)域,提供更完整的全套的教育解決方案性锭,而不僅僅是教育中所需要的語(yǔ)音技術(shù)赠潦。
Q:國(guó)內(nèi)做語(yǔ)義理解有哪些比較好的應(yīng)用場(chǎng)景?
A:目前國(guó)內(nèi)草冈,語(yǔ)義理解的場(chǎng)景和語(yǔ)音理解的場(chǎng)景她奥,本質(zhì)沒(méi)有什么區(qū)別瓮增,主要是在更垂直的行業(yè)、產(chǎn)品哩俭、應(yīng)用中绷跑,比如車(chē)載、電視凡资、音箱砸捏。如果能在輸入法和搜索方面,能夠把這樣的語(yǔ)音和語(yǔ)義能力融合的更好的話隙赁,也是一個(gè)不錯(cuò)的應(yīng)用場(chǎng)景垦藏,比如搜索方面的用戶查詢,都是自然語(yǔ)音伞访,而用戶在輸入法中的聊天掂骏,本來(lái)就是自然語(yǔ)言,可以依據(jù)這些產(chǎn)生很多產(chǎn)品創(chuàng)新的厚掷。
語(yǔ)義理解最大的應(yīng)用場(chǎng)景弟灼,是客服。在任何大產(chǎn)品上都有需求冒黑,比如支付寶田绑、京東、順豐薛闪,任何呼叫中心的客服辛馆,都是語(yǔ)義理解、自然語(yǔ)言理解特別好的應(yīng)用場(chǎng)景豁延。
后記:
在搜狗內(nèi)部團(tuán)隊(duì)歷年的黑客馬拉松上昙篙,我們可以看到搜狗基于人工智能核心技術(shù),所做的創(chuàng)新探索诱咏。在「WARE 2017」會(huì)前的采訪中(查看全文)苔可,我們了解到了搜狗這家公司的語(yǔ)音技術(shù)發(fā)展歷史,以及搜狗是如何基于自己的搜索核心技術(shù)進(jìn)行商業(yè)化落地袋狞。從語(yǔ)音的入口到最終的服務(wù)焚辅,國(guó)內(nèi)的兩家公司,搜狗和百度苟鸯,在技術(shù)上都在各自建立著自己的壁壘同蜻。我們期待搜狗未來(lái)更好的表現(xiàn)。