Uploads%2farticles%2f11577%2f1 58jay3 4upxo87gdg4 n g
|
2017-05-26

從實(shí)時(shí)語(yǔ)音合成到上百種口音的進(jìn)階,百度 Deep Voice 2 模仿人聲的能力更強(qiáng)了

Google 你怕不怕?

在與機(jī)器進(jìn)行語(yǔ)音交談時(shí),人們都更傾向于希望機(jī)器的聲音有一定的語(yǔ)調(diào)和情感识补,這樣比起那些機(jī)械族淮、一字一頓的機(jī)器聲更受歡迎。主要還是因?yàn)樽屓烁杏X「我在跟一個(gè)人說話」凭涂。

在業(yè)界祝辣,要達(dá)到這一效果,通常有兩種解決方案:一是拼接式語(yǔ)音合成(Concatenative Synthesis)切油,先錄制單個(gè)說話者的大量語(yǔ)音片段蝙斜,形成一定規(guī)模的語(yǔ)料庫(kù),接著從中提取特征以完成相應(yīng)的語(yǔ)段音頻澎胡。二是參數(shù)化的方法孕荠,利用數(shù)學(xué)模型對(duì)已知的聲音進(jìn)行排列、組裝成詞語(yǔ)或句子來重新創(chuàng)造音頻攻谁。

相比拼接式的語(yǔ)音合成岛琼,參數(shù)化方法所形成的語(yǔ)音片段更自然,但兩種方法都是對(duì)語(yǔ)音進(jìn)行機(jī)械式的拼接巢株,且其中還需要經(jīng)過多道復(fù)雜的程序才得以完成槐瑞,稱得上是一項(xiàng)大型工程。日常的語(yǔ)音導(dǎo)航系統(tǒng)就是依靠這樣的方法進(jìn)行語(yǔ)音阁苞、語(yǔ)調(diào)的合成困檩。

在百度位于美國(guó)硅谷的人工智能實(shí)驗(yàn)室(AI Lab),除了自動(dòng)駕駛技術(shù)之外那槽,他們還有一項(xiàng)重要的研究項(xiàng)目—— Deep Voice悼沿,該項(xiàng)目組主要致力于人工智能語(yǔ)音技術(shù)研發(fā)。

在今年 3 月份骚灸,該研究部門首次向外界推出了 Deep Voice(深度語(yǔ)音系統(tǒng))糟趾,該系統(tǒng)是一個(gè)完全由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的語(yǔ)音轉(zhuǎn)文本(TTS,Text-to-Speech)系統(tǒng)甚牲,最大的亮點(diǎn)在于能實(shí)時(shí)合成人工語(yǔ)音义郑。

Deep Voice 仿照傳統(tǒng)文字轉(zhuǎn)語(yǔ)音的途徑,采用相似的結(jié)構(gòu)丈钙,替換上相應(yīng)的組件非驮。其實(shí)現(xiàn)主要依靠由深度學(xué)習(xí)網(wǎng)絡(luò)搭建成的語(yǔ)音合成神經(jīng)網(wǎng)絡(luò)系統(tǒng)(Real-Time Neural Text-to-Speech for Production)對(duì)所采集的數(shù)據(jù)集、語(yǔ)音進(jìn)行提煉雏赦,進(jìn)一步生成新的音頻劫笙。在這一過程中芙扎,無(wú)需進(jìn)行數(shù)據(jù)注釋等任何手動(dòng)工作,大大簡(jiǎn)化了語(yǔ)音合成流程且有高品質(zhì)效果填大。(論文地址:https://arxiv.org/pdf/1702.07825.pdf

近日戒洼,在時(shí)隔不到 3 個(gè)月的時(shí)間,百度 Deep Voice 發(fā)布了最新的研究成果并推出 Deep Voice 2允华。Deep Voice 2 的主要更新在于施逾,可實(shí)時(shí)合成上百種口音的音頻,而上一代的系統(tǒng)僅能合成一個(gè)人聲例获。(百度官方提供了多個(gè)示例樣本:http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/

在該系統(tǒng)中汉额,機(jī)器完成每個(gè)口音模仿的學(xué)習(xí)僅需半小時(shí)的時(shí)間,同樣的榨汤,在這個(gè)語(yǔ)音合成的過程中蠕搜,并不需要任何的人工調(diào)整。相比上一代收壕,Deep Voice 2 的運(yùn)行速度快了好幾倍妓灌。

與上一代的運(yùn)行思路不同的是,在形成多個(gè)口音音頻的過程中蜜宪,Deep Voice 2 通過數(shù)百個(gè)人聲樣本中提取數(shù)據(jù)虫埂、特征,建立一個(gè)音頻模型圃验,語(yǔ)音合成神經(jīng)網(wǎng)絡(luò)根據(jù)這些模型進(jìn)行調(diào)整以設(shè)計(jì)出不同特征的聲音掉伏。

對(duì)于 Deep Voice 2 的意義,百度官方表示澳窑,其在個(gè)人語(yǔ)音助理斧散、電子閱讀器等應(yīng)用中有非常大的想象空間,如為個(gè)人提供不同音色的文本朗讀摊聋。

類似的鸡捐,Google 旗下 DeepMind 深度學(xué)習(xí)實(shí)驗(yàn)室早在去年公布了其利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks)對(duì)原始音頻波形(Raw SoundWave)建模的語(yǔ)音合成技術(shù) WaveNet,同樣是一種通過原始語(yǔ)音合成新音頻的技術(shù)麻裁,且效果也相當(dāng)接近原音箍镜。

通過人類語(yǔ)音訓(xùn)練過的卷積神經(jīng)網(wǎng)絡(luò)能辨別語(yǔ)音、語(yǔ)言的音頻模式煎源,對(duì) WaveNet 系統(tǒng)輸入新的文本信息后色迂,該系統(tǒng)會(huì)根據(jù)新的語(yǔ)音特征來生成新的原始音頻波段來讀出這個(gè)新的文本信息

不過,WaveNet 需要對(duì)整個(gè)的原始音頻波形(Raw SoundWave)進(jìn)行計(jì)算薪夕,而每輸出一秒音頻神經(jīng)網(wǎng)絡(luò)必須處理 16000 個(gè)樣本脚草,所以其運(yùn)算量不小赫悄。

從技術(shù)更新上看原献,百度比 Google DeepMind 的要走在更前且短時(shí)間內(nèi)實(shí)現(xiàn)迅速發(fā)展馏慨。但兩者的技術(shù)均處在實(shí)驗(yàn)室階段,不管是在它們各自的語(yǔ)音操作系統(tǒng)和應(yīng)用中姑隅,還是在硬件接入上写隶,都有著巨大的發(fā)揮空間。

>>
Back to top btn
亚洲AV无码国产精品网址,久久亚洲AV成人出白浆无码国产,日韩AV美乳欧美,永久免费AV无码软件app下载