Google 發(fā)布 Translatotron 翻譯系統(tǒng)迫吐，支持語音直接翻語音

Uploads%2farticles%2f13156%2fgoogles translatotron translates speech directly to speech

2019-05-17

Google 發(fā)布 Translatotron 翻譯系統(tǒng)，支持語音直接翻語音

未來的 Google 翻譯能模仿你的說話特征

隨著機(jī)器學(xué)習(xí)和 AI 技術(shù)的發(fā)展，機(jī)器翻譯得到了快速的發(fā)展，在很多的場(chǎng)景下呻疹，我們都可以看到機(jī)器語音翻譯的應(yīng)用。在現(xiàn)階段筹陵，語音翻譯系統(tǒng)在實(shí)現(xiàn)翻譯時(shí)大致需要三個(gè)步驟：

1刽锤、自動(dòng)語音識(shí)別，將語音轉(zhuǎn)錄為文本

2朦佩、通過機(jī)器翻譯并思，將文本翻譯成另一種語言的文本

3、將文本再生成翻譯后的語音（TTS）

不過语稠，Google AI 最新的論文顯示宋彼，Google 正嘗試將這三步中的文本翻譯去掉——日前，Google AI 官方博客提出了一個(gè)實(shí)驗(yàn)性質(zhì)的新系統(tǒng) 「Translatotron」颅筋，這一系統(tǒng)可實(shí)現(xiàn)使用序列到序列模型的直接語音翻譯宙暇，是首個(gè)能夠直接將一種語言的語音內(nèi)容直接翻譯成另一種語言的語音版本，而中間不需要文本轉(zhuǎn)化的端到端模型议泵。得益于此占贫，Translatotron 可以實(shí)現(xiàn)更快的翻譯速度，還能降低機(jī)器轉(zhuǎn)譯出現(xiàn)的錯(cuò)誤先口。

Translatotron 系統(tǒng)能夠在翻譯時(shí)將說話者的語音使用頻譜圖作為輸入型奥，再配合神經(jīng)聲碼器和揚(yáng)聲器編碼器的切入進(jìn)行編碼處理，最終以目標(biāo)語言生成新的頻譜圖碉京，實(shí)現(xiàn)語音到語音的翻譯轉(zhuǎn)換輸出厢汹。

并且，揚(yáng)聲器編碼器可以在預(yù)先進(jìn)行一些簡單的對(duì)話訓(xùn)練谐宙，并在訓(xùn)練中針對(duì)說話者的聲音特征進(jìn)行編碼烫葬。通過學(xué)習(xí)之后，再調(diào)節(jié)新的頻譜圖解碼器凡蜻，這樣就可以使合成后的語音能夠保留一些說話者的聲音特征搭综，就算是不同的語言也都可以實(shí)現(xiàn)特征保留。

雖然最終的語音聽起來會(huì)有些機(jī)器人的感覺划栓，不過也算是在實(shí)現(xiàn)真正的「同聲」傳譯之路上邁進(jìn)一大步了兑巾。

Google 表示，Translatotron 系統(tǒng)的推進(jìn)將是未來語音轉(zhuǎn)語音翻譯系統(tǒng)的新起點(diǎn)忠荞。

Google

深圳灣（微信公眾號(hào) ID：shenzhenware）是最早也是最活躍的硬件創(chuàng)新社區(qū)和媒體蒋歌，關(guān)注「軟件+硬件」帶來的場(chǎng)景和交互創(chuàng)新帅掘，以及與平臺(tái)和應(yīng)用相連的產(chǎn)業(yè)鏈升級(jí)。

本文信息來源:https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html堂油。
轉(zhuǎn)載修档、采訪、約稿府框、投稿萍悴、團(tuán)隊(duì)報(bào)道請(qǐng)聯(lián)系微信公眾號(hào)深圳灣：shenzhenware（回復(fù)關(guān)鍵字）。

上一篇：藍(lán)牙亞洲大會(huì) 2019：解讀藍(lán)牙技術(shù)新趨勢(shì)寓免，手把手教你玩轉(zhuǎn)藍(lán)牙技術(shù)

下一篇：安全防護(hù)層層加碼癣诱，新一代耐用戰(zhàn)神 OPPO A5 Pro 正式開售