Uploads%2farticles%2f13642%2f640
|
2019-11-23

AI 如何像人一樣聊天反肋、唱歌不走調(diào)?微軟小冰首席科學家揭秘背后的技術(shù)

小冰表面古靈精怪贷笛,背后蘊藏大力量

化名參加央美的研究生畢業(yè)展乏苦、舉辦個人畫展株扛、以人工智能歌手身份簽約 AVEX,成為濱崎步、安室奈美惠的同門師妹洞就,在網(wǎng)易云上發(fā)布單曲……微軟小冰今年出鏡率高了不少盆繁,它在用實際行動展示人工智能創(chuàng)造(AI Creation)的可能性,以及微軟研究落地的可行性和價值奖磁。

本周四改基,微軟小冰在北京微軟(亞洲)互聯(lián)網(wǎng)工程院舉辦 Research Workshop,系統(tǒng)分享了微軟小冰在 AI 人機對話咖为、人工智能創(chuàng)造(唱歌)秕狰、跨模態(tài)理解這幾方面技術(shù)的最新進展,為我們一一揭露小冰才藝爆棚背后的復雜技術(shù)躁染。

從學習人說話鸣哀,到自主學習,微軟小冰走向「自我完備」

作為一個主打 EQ吞彤、由閑聊機器人起家的人工智能我衬,微軟小冰在對話式 AI 技術(shù)方面有著許多領(lǐng)先業(yè)界的創(chuàng)舉:最早提出全雙工語音對話技術(shù),發(fā)展至今饰恕,平均對話輪數(shù)(CPS)達到世界領(lǐng)先的 23 輪挠羔;第六代小冰升級共感模型,融合全雙工和實時視覺埋嵌,讓 AI 也能「察言觀色」破加;第七代小冰實現(xiàn)了從「平等對話」向「主導對話」方向的跨越。簡單來說雹嗦,小冰在培養(yǎng)越來越接近人類的交流能力范舀。

微軟小冰首席 NLP 科學家武威用「Self-Complete」(自我完備)這一個詞語概括微軟小冰近幾年來的研發(fā)成果。具體來講了罪,Self-Complete 需要 AI 自主學習锭环、自主管理、自主關(guān)聯(lián)這三種能力泊藕。

自主學習

對話機器人學習分為兩個層次辅辩,第一個層次是從人類的對話中學習說話,這是目前對話式 AI 正在主攻的方向娃圆。這次玫锋,武威重點談到第二個層次,機器之間的互相學習踊餐,也是微軟小冰的一個新探索方向景醇。

△ 微軟小冰首席 NLP 科學家武威

機器之間的的互相學習,道理其實就類似人類的「你有一個思想吝岭,我有一個思想三痰,我們交換一下吧寺,一人就有兩個思想甚至更多」。

「術(shù)業(yè)有專攻」散劫,跟人類一樣稚机,每個機器人也都可能有自己的領(lǐng)域知識。微軟小冰團隊研發(fā)出了 Co-teaching 算法获搏,讓 AI 的兩個不同檢索模型在訓練過程中互為師生赖条、相互學習。結(jié)果表明常熙,兩個模型對比以往的學習路徑都有了顯著提升纬乍。

△ 第三個是應(yīng)用了 Co-teaching 算法的學習效果

自主管理

自主管理即 AI 能管理說話的內(nèi)容、走向裸卫,典型的應(yīng)用就是微軟小冰第六代公布的共感模型仿贬。

在共感模型中,包含兩個模型墓贿,一個回復生成模型茧泪,即決定說什么。第二個為策略決定模型聋袋,即怎么說队伟。兩個模型相結(jié)合,將微軟小冰從原來基于上下文直接產(chǎn)生回復的模式幽勒,轉(zhuǎn)變成了基于上下文產(chǎn)生策略嗜侮,從而產(chǎn)生相應(yīng)的對話,譬如主動引導一個話題代嗤、提問棘钞、確認缠借、或者是無意識干毅、簡單的回復。

在日本泼返、美國硝逢,微軟小冰基于知識庫,通過對上下文對話理解绅喉,做到了幫助用戶挑選所購買商品渠鸽,達到了 68% 的轉(zhuǎn)化率。這是微軟小冰共感模型在商業(yè)落地上的其中一個應(yīng)用柴罐。

自主聯(lián)結(jié)

自主聯(lián)結(jié)徽缚,指的是機器人能夠?qū)ㄋ阉饕妗⑽臋n革屠、圖片凿试、視頻排宰、知識圖譜等分散在各地的多模態(tài)知識,聯(lián)結(jié)起來那婉,進行消化板甘、吸收,形成自己的輸出內(nèi)容详炬,內(nèi)容也不限于文本盐类、圖片等任一形式。

今年 2 月呛谜,微軟小冰面向未來的多模態(tài)交互感官已在日本完成公開測試:通過手機 APP 應(yīng)用和手機攝像頭在跳,小冰可綜合文本、聲音和圖像等信息與人類交流隐岛。比如在日本的一項測試中硬毕,用手機攝像頭充當眼睛,小冰可以在陪用戶一同逛水族館礼仗,對所見所聞(魚)挑起對話吐咳、評論。

模型+數(shù)據(jù)元践,讓 AI 學唱歌比學說話要難得多

在本次 Workshop 上韭脊,微軟首席語音科學家欒劍,首次系統(tǒng)披露微軟小冰歌唱能力背后的技術(shù)单旁。

△ 微軟首席語音科學家欒劍

欒劍提到沪羔,相比說話,唱歌具有門檻高象浑、情感表達更豐富的特點蔫饰。此外,唱歌具備發(fā)音愉豺、節(jié)拍篓吁、旋律三大基本要素。因此蚪拦,AI 唱歌技術(shù)可以沿襲過去的語音合成技術(shù)杖剪,同時也存在額外的技術(shù)難點。

傳統(tǒng)的 AI 唱歌模型主要包含單元拼接驰贷、參數(shù)合成(隱馬爾可夫模型)這兩種主流的方式盛嘿,但也都各有短板:單元拼接易導致唱腔過渡不自然、生硬括袒,參數(shù)合成因聲碼器的關(guān)系會損失音質(zhì)次兆。

微軟小冰采取參數(shù)合成的方式,加以模型改良锹锰,避免出現(xiàn)上述情況芥炭。在模式上分別對聲譜參數(shù)狈邑、節(jié)奏序列、音高軌跡(即唱歌的三大要素)進行建模蚤认,為協(xié)調(diào)三個參數(shù)的耦合性米苹,微軟用一個預(yù)測參數(shù)模型同時預(yù)測三個參數(shù),但按照目前技術(shù)水平處理上有不小的難度砰琢。欒劍表示蘸嘶,卷積神經(jīng)網(wǎng)絡(luò)近幾年的快速發(fā)展,讓三個參數(shù)同時建模成為可能陪汽。

眾所周知训唱,深度學習需要大數(shù)據(jù)的訓練來支持。欒劍坦言挚冤,AI 唱歌技能養(yǎng)成的一個大難題是嚴重缺乏清唱的數(shù)據(jù)况增。對此,小冰與唱片公司合作训挡,在混雜各種音軌澳骤、伴奏的歌曲中,將人聲部分的時間戳進行標注澜薄、發(fā)音的起始結(jié)束時間为肮、音高軌跡進行提取,給小冰訓練出更豐富的演唱風格肤京。

談?wù)劚扔骶鋭?chuàng)作颊艳、繪畫生成:AI 要有理解能力,也要懂常識

文本創(chuàng)作忘分、繪畫作為微軟小冰人工智能創(chuàng)作的重點技能棋枕,也在鞏固的基礎(chǔ)上持續(xù)突破新的技術(shù)難點。微軟小冰首席科學家宋睿華為大家講解了其最新的進展:學會造比喻句妒峦,跨模態(tài)理解重斑。

不同于人類常用的「像……一樣」的手法,微軟小冰通過輸出「解釋」的方式創(chuàng)造比喻句舟山,重點關(guān)注本體和喻體之間的聯(lián)系绸狐。

對此卤恳,微軟小冰團隊從詩歌中抽取了 120 個主題累盗,挑選了 6 大類,96 個常用比喻的概念突琳,隨后從 1000 個常用詞中選取 3000 個最常用的形容詞擴充小冰的比喻能力若债。例如將愛情、心拆融、世界蠢琳、夢想啊终、生活、快樂等抽象概念傲须,提取出相關(guān)信息蓝牲,相互之間關(guān)聯(lián)產(chǎn)生合理的比喻。

△ 微軟小冰首席科學家宋睿華

小冰已有的合格比喻句作品有:

  • 愛情跟脂肪聯(lián)系造成的比喻句:「愛情就像脂肪泰讽,是點點滴滴的積累例衍。」

  • 靈魂與球迷聯(lián)系造成的比喻句:「靈魂就像球迷一樣已卸,在無聲的吶喊佛玄。」

跨模態(tài)理解

用跨模態(tài)的方式去理解文本累澡,是微軟小冰訓練理解能力的一個課題梦抢。

目前,業(yè)界已經(jīng)有類似 Text-to-Image愧哟、Text-to-Video奥吩、Story-to-Image 這樣一些旨在挖掘 AI 理解能力的課題。以 Story-to-Image 為例蕊梧,微軟小冰希望能模仿人類圈驼,理解一句話背后暗含的意思,以及常識望几。

不同于單一檢索绩脆,Story-to-Image 以故事為基礎(chǔ)輸出圖像,關(guān)系到上下文的連貫性橄抹,圖畫細節(jié)是否與故事匹配(match)靴迫,此外,鑒于以往 one to one 訓練數(shù)據(jù)楼誓,一句話只能輸出一張圖像玉锌,往往無法展現(xiàn)語句的所有信息量。

對此疟羹,微軟小冰創(chuàng)新性地提出 one to more 的訓練算法主守,讓 AI 針對一句話、一個故事線輸出數(shù)張圖片榄融。

比如「有一個老太婆養(yǎng)著一只母雞参淫,它每天下一個黃燦燦的金蛋」。one to one 的模型只輸出一張老奶奶的圖片愧杯,而 one to more 的模型涎才,能在這基礎(chǔ)上再輸出一張雞蛋圖片。

另外力九,人類普遍具備的「常識」也是人工智能需要提升的一個能力耍铜。例如邑闺,人類都知道「北極熊是白色」的事實,因此不會在寫作中特意加上「白色的」這樣一個前綴來描述北極熊棕兼。

相應(yīng)的陡舅,在「畫餅充饑」Story-to-Image 的訓練中,小冰在創(chuàng)作的繪畫中表現(xiàn)出了父母找到丟失小孩是「激動」的心情伴挚,是一種理解人類情緒的常識的表現(xiàn)蹭沛。

做一個通用型的 AI Being:技術(shù)要有挑戰(zhàn),成果要能被接受

談到人工智能章鲤,我們目前大多接觸到的是實用性的語音助手摊灭,鮮少有人體會和理解像小冰這樣情感、才藝型的 AI败徊,它們會朝著什么樣的路徑發(fā)展帚呼。

在接受采訪過程中,欒劍皱蹦、宋睿華均表達了的微軟小冰在 AI 技術(shù)研究上的立場煤杀。

就技術(shù)而言,微軟小冰首先瞄準具有挑戰(zhàn)性的研究方向沪哺,但也必須以目前技術(shù)能夠達到的程度為前提沈自。其次,要做出大家能夠廣泛接受的產(chǎn)品和成果辜妓,反之群眾接受度不高枯途,不利于收集反饋數(shù)據(jù),以及推進研發(fā)的進展籍滴。

對于技術(shù)能夠產(chǎn)生怎樣的商業(yè)價值酪夷,不僅僅是市場團隊,研發(fā)團隊本身也在挖掘孽惰。以基于跨模態(tài)理解的繪畫生成技能為例晚岭,未來將有可能應(yīng)用在兒童繪本創(chuàng)作中。以唱歌為例勋功,目前原創(chuàng)詞曲是稀缺資源坦报,日后微軟小冰如果能在這方面有建樹,也將會有巨大的想象空間狂鞋。

微軟小冰團隊進一步表示片择,只有技術(shù)成果達到理想狀態(tài),才會推向市場要销」够兀回到今年第七代微軟小冰發(fā)布 AI beings 完整框架 Avatar Framework 時所傳達的宗旨,讓微軟小冰的能力形成一個通用型的平臺疏咐,幫助廠商打造各種各樣的 AI纤掸,「孕育出一片 AI 森林」。


PS.福利大放送
整場 Workshop 干貨滿滿浑塞,一篇文章無法精細覆蓋到每一個技術(shù)點借跪。本文提到的所有技術(shù)點,微軟(亞洲)互聯(lián)網(wǎng)工程院均已經(jīng)發(fā)布了相應(yīng)技術(shù)成果的論文酌壕。
感興趣的技術(shù)小伙伴掏愁,可在深圳灣(ID:shenzhenware)公眾號留言「微軟小冰」四個字,獲取微軟小冰技術(shù)相關(guān)學術(shù)論文
>>
Back to top btn
亚洲AV无码国产精品网址,久久亚洲AV成人出白浆无码国产,日韩AV美乳欧美,永久免费AV无码软件app下载