Google I/O 2019:AI 往實(shí)用性的道路前行,少了黑科技依舊精彩
Google 發(fā)布 Translatotron 翻譯系統(tǒng),支持語音直接翻語音
未來的 Google 翻譯能模仿你的說話特征
隨著機(jī)器學(xué)習(xí)和 AI 技術(shù)的發(fā)展,機(jī)器翻譯得到了快速的發(fā)展,在很多的場(chǎng)景下呻疹,我們都可以看到機(jī)器語音翻譯的應(yīng)用。在現(xiàn)階段筹陵,語音翻譯系統(tǒng)在實(shí)現(xiàn)翻譯時(shí)大致需要三個(gè)步驟:
1刽锤、自動(dòng)語音識(shí)別,將語音轉(zhuǎn)錄為文本
2朦佩、通過機(jī)器翻譯并思,將文本翻譯成另一種語言的文本
3、將文本再生成翻譯后的語音(TTS)
不過语稠,Google AI 最新的論文顯示宋彼,Google 正嘗試將這三步中的文本翻譯去掉——日前,Google AI 官方博客提出了一個(gè)實(shí)驗(yàn)性質(zhì)的新系統(tǒng) 「Translatotron」颅筋,這一系統(tǒng)可實(shí)現(xiàn)使用序列到序列模型的直接語音翻譯宙暇,是首個(gè)能夠直接將一種語言的語音內(nèi)容直接翻譯成另一種語言的語音版本,而中間不需要文本轉(zhuǎn)化的端到端模型议泵。得益于此占贫,Translatotron 可以實(shí)現(xiàn)更快的翻譯速度,還能降低機(jī)器轉(zhuǎn)譯出現(xiàn)的錯(cuò)誤先口。
Translatotron 系統(tǒng)能夠在翻譯時(shí)將說話者的語音使用頻譜圖作為輸入型奥,再配合神經(jīng)聲碼器和揚(yáng)聲器編碼器的切入進(jìn)行編碼處理,最終以目標(biāo)語言生成新的頻譜圖碉京,實(shí)現(xiàn)語音到語音的翻譯轉(zhuǎn)換輸出厢汹。
并且,揚(yáng)聲器編碼器可以在預(yù)先進(jìn)行一些簡單的對(duì)話訓(xùn)練谐宙,并在訓(xùn)練中針對(duì)說話者的聲音特征進(jìn)行編碼烫葬。通過學(xué)習(xí)之后,再調(diào)節(jié)新的頻譜圖解碼器凡蜻,這樣就可以使合成后的語音能夠保留一些說話者的聲音特征搭综,就算是不同的語言也都可以實(shí)現(xiàn)特征保留。
雖然最終的語音聽起來會(huì)有些機(jī)器人的感覺划栓,不過也算是在實(shí)現(xiàn)真正的「同聲」傳譯之路上邁進(jìn)一大步了兑巾。
Google 表示,Translatotron 系統(tǒng)的推進(jìn)將是未來語音轉(zhuǎn)語音翻譯系統(tǒng)的新起點(diǎn)忠荞。