2019-11-23

AI 如何像人一樣聊天反肋、唱歌不走調(diào)？微軟小冰首席科學家揭秘背后的技術(shù)

小冰表面古靈精怪贷笛，背后蘊藏大力量

化名參加央美的研究生畢業(yè)展乏苦、舉辦個人畫展株扛、以人工智能歌手身份簽約 AVEX，成為濱崎步、安室奈美惠的同門師妹洞就，在網(wǎng)易云上發(fā)布單曲……微軟小冰今年出鏡率高了不少盆繁，它在用實際行動展示人工智能創(chuàng)造（AI Creation）的可能性，以及微軟研究落地的可行性和價值奖磁。

本周四改基，微軟小冰在北京微軟（亞洲）互聯(lián)網(wǎng)工程院舉辦 Research Workshop，系統(tǒng)分享了微軟小冰在 AI 人機對話咖为、人工智能創(chuàng)造（唱歌）秕狰、跨模態(tài)理解這幾方面技術(shù)的最新進展，為我們一一揭露小冰才藝爆棚背后的復雜技術(shù)躁染。

從學習人說話鸣哀，到自主學習，微軟小冰走向「自我完備」

作為一個主打 EQ吞彤、由閑聊機器人起家的人工智能我衬，微軟小冰在對話式 AI 技術(shù)方面有著許多領(lǐng)先業(yè)界的創(chuàng)舉：最早提出全雙工語音對話技術(shù)，發(fā)展至今饰恕，平均對話輪數(shù)（CPS）達到世界領(lǐng)先的 23 輪挠羔；第六代小冰升級共感模型，融合全雙工和實時視覺埋嵌，讓 AI 也能「察言觀色」破加；第七代小冰實現(xiàn)了從「平等對話」向「主導對話」方向的跨越。簡單來說雹嗦，小冰在培養(yǎng)越來越接近人類的交流能力范舀。

微軟小冰首席 NLP 科學家武威用「Self-Complete」（自我完備）這一個詞語概括微軟小冰近幾年來的研發(fā)成果。具體來講了罪，Self-Complete 需要 AI 自主學習锭环、自主管理、自主關(guān)聯(lián)這三種能力泊藕。

自主學習

對話機器人學習分為兩個層次辅辩，第一個層次是從人類的對話中學習說話，這是目前對話式 AI 正在主攻的方向娃圆。這次玫锋，武威重點談到第二個層次，機器之間的互相學習踊餐，也是微軟小冰的一個新探索方向景醇。

機器之間的的互相學習，道理其實就類似人類的「你有一個思想吝岭，我有一個思想三痰，我們交換一下吧寺，一人就有兩個思想甚至更多」。

「術(shù)業(yè)有專攻」散劫，跟人類一樣稚机，每個機器人也都可能有自己的領(lǐng)域知識。微軟小冰團隊研發(fā)出了 Co-teaching 算法获搏，讓 AI 的兩個不同檢索模型在訓練過程中互為師生赖条、相互學習。結(jié)果表明常熙，兩個模型對比以往的學習路徑都有了顯著提升纬乍。

自主管理

自主管理即 AI 能管理說話的內(nèi)容、走向裸卫，典型的應(yīng)用就是微軟小冰第六代公布的共感模型仿贬。

在共感模型中，包含兩個模型墓贿，一個回復生成模型茧泪，即決定說什么。第二個為策略決定模型聋袋，即怎么說队伟。兩個模型相結(jié)合，將微軟小冰從原來基于上下文直接產(chǎn)生回復的模式幽勒，轉(zhuǎn)變成了基于上下文產(chǎn)生策略嗜侮，從而產(chǎn)生相應(yīng)的對話，譬如主動引導一個話題代嗤、提問棘钞、確認缠借、或者是無意識干毅、簡單的回復。

在日本泼返、美國硝逢，微軟小冰基于知識庫，通過對上下文對話理解绅喉，做到了幫助用戶挑選所購買商品渠鸽，達到了 68% 的轉(zhuǎn)化率。這是微軟小冰共感模型在商業(yè)落地上的其中一個應(yīng)用柴罐。

自主聯(lián)結(jié)

自主聯(lián)結(jié)徽缚，指的是機器人能夠?qū)ㄋ阉饕妗⑽臋n革屠、圖片凿试、視頻排宰、知識圖譜等分散在各地的多模態(tài)知識，聯(lián)結(jié)起來那婉，進行消化板甘、吸收，形成自己的輸出內(nèi)容详炬，內(nèi)容也不限于文本盐类、圖片等任一形式。

今年 2 月呛谜，微軟小冰面向未來的多模態(tài)交互感官已在日本完成公開測試：通過手機 APP 應(yīng)用和手機攝像頭在跳，小冰可綜合文本、聲音和圖像等信息與人類交流隐岛。比如在日本的一項測試中硬毕，用手機攝像頭充當眼睛，小冰可以在陪用戶一同逛水族館礼仗，對所見所聞（魚）挑起對話吐咳、評論。

模型+數(shù)據(jù)元践，讓 AI 學唱歌比學說話要難得多

在本次 Workshop 上韭脊，微軟首席語音科學家欒劍，首次系統(tǒng)披露微軟小冰歌唱能力背后的技術(shù)单旁。

欒劍提到沪羔，相比說話，唱歌具有門檻高象浑、情感表達更豐富的特點蔫饰。此外，唱歌具備發(fā)音愉豺、節(jié)拍篓吁、旋律三大基本要素。因此蚪拦，AI 唱歌技術(shù)可以沿襲過去的語音合成技術(shù)杖剪，同時也存在額外的技術(shù)難點。

傳統(tǒng)的 AI 唱歌模型主要包含單元拼接驰贷、參數(shù)合成（隱馬爾可夫模型）這兩種主流的方式盛嘿，但也都各有短板：單元拼接易導致唱腔過渡不自然、生硬括袒，參數(shù)合成因聲碼器的關(guān)系會損失音質(zhì)次兆。

微軟小冰采取參數(shù)合成的方式，加以模型改良锹锰，避免出現(xiàn)上述情況芥炭。在模式上分別對聲譜參數(shù)狈邑、節(jié)奏序列、音高軌跡（即唱歌的三大要素）進行建模蚤认，為協(xié)調(diào)三個參數(shù)的耦合性米苹，微軟用一個預(yù)測參數(shù)模型同時預(yù)測三個參數(shù)，但按照目前技術(shù)水平處理上有不小的難度砰琢。欒劍表示蘸嘶，卷積神經(jīng)網(wǎng)絡(luò)近幾年的快速發(fā)展，讓三個參數(shù)同時建模成為可能陪汽。

眾所周知训唱，深度學習需要大數(shù)據(jù)的訓練來支持。欒劍坦言挚冤，AI 唱歌技能養(yǎng)成的一個大難題是嚴重缺乏清唱的數(shù)據(jù)况增。對此，小冰與唱片公司合作训挡，在混雜各種音軌澳骤、伴奏的歌曲中，將人聲部分的時間戳進行標注澜薄、發(fā)音的起始結(jié)束時間为肮、音高軌跡進行提取，給小冰訓練出更豐富的演唱風格肤京。

談?wù)劚扔骶鋭?chuàng)作颊艳、繪畫生成：AI 要有理解能力，也要懂常識

文本創(chuàng)作忘分、繪畫作為微軟小冰人工智能創(chuàng)作的重點技能棋枕，也在鞏固的基礎(chǔ)上持續(xù)突破新的技術(shù)難點。微軟小冰首席科學家宋睿華為大家講解了其最新的進展：學會造比喻句妒峦，跨模態(tài)理解重斑。

不同于人類常用的「像……一樣」的手法，微軟小冰通過輸出「解釋」的方式創(chuàng)造比喻句舟山，重點關(guān)注本體和喻體之間的聯(lián)系绸狐。

對此卤恳，微軟小冰團隊從詩歌中抽取了 120 個主題累盗，挑選了 6 大類，96 個常用比喻的概念突琳，隨后從 1000 個常用詞中選取 3000 個最常用的形容詞擴充小冰的比喻能力若债。例如將愛情、心拆融、世界蠢琳、夢想啊终、生活、快樂等抽象概念傲须，提取出相關(guān)信息蓝牲，相互之間關(guān)聯(lián)產(chǎn)生合理的比喻。

小冰已有的合格比喻句作品有：

愛情跟脂肪聯(lián)系造成的比喻句：「愛情就像脂肪泰讽，是點點滴滴的積累例衍。」
靈魂與球迷聯(lián)系造成的比喻句：「靈魂就像球迷一樣已卸，在無聲的吶喊佛玄。」

跨模態(tài)理解

用跨模態(tài)的方式去理解文本累澡，是微軟小冰訓練理解能力的一個課題梦抢。

目前，業(yè)界已經(jīng)有類似 Text-to-Image愧哟、Text-to-Video奥吩、Story-to-Image 這樣一些旨在挖掘 AI 理解能力的課題。以 Story-to-Image 為例蕊梧，微軟小冰希望能模仿人類圈驼，理解一句話背后暗含的意思，以及常識望几。

不同于單一檢索绩脆，Story-to-Image 以故事為基礎(chǔ)輸出圖像，關(guān)系到上下文的連貫性橄抹，圖畫細節(jié)是否與故事匹配（match）靴迫，此外，鑒于以往 one to one 訓練數(shù)據(jù)楼誓，一句話只能輸出一張圖像玉锌，往往無法展現(xiàn)語句的所有信息量。

對此疟羹，微軟小冰創(chuàng)新性地提出 one to more 的訓練算法主守，讓 AI 針對一句話、一個故事線輸出數(shù)張圖片榄融。

比如「有一個老太婆養(yǎng)著一只母雞参淫，它每天下一個黃燦燦的金蛋」。one to one 的模型只輸出一張老奶奶的圖片愧杯，而 one to more 的模型涎才，能在這基礎(chǔ)上再輸出一張雞蛋圖片。

另外力九，人類普遍具備的「常識」也是人工智能需要提升的一個能力耍铜。例如邑闺，人類都知道「北極熊是白色」的事實，因此不會在寫作中特意加上「白色的」這樣一個前綴來描述北極熊棕兼。

相應(yīng)的陡舅，在「畫餅充饑」Story-to-Image 的訓練中，小冰在創(chuàng)作的繪畫中表現(xiàn)出了父母找到丟失小孩是「激動」的心情伴挚，是一種理解人類情緒的常識的表現(xiàn)蹭沛。

做一個通用型的 AI Being：技術(shù)要有挑戰(zhàn)，成果要能被接受

談到人工智能章鲤，我們目前大多接觸到的是實用性的語音助手摊灭，鮮少有人體會和理解像小冰這樣情感、才藝型的 AI败徊，它們會朝著什么樣的路徑發(fā)展帚呼。

在接受采訪過程中，欒劍皱蹦、宋睿華均表達了的微軟小冰在 AI 技術(shù)研究上的立場煤杀。

就技術(shù)而言，微軟小冰首先瞄準具有挑戰(zhàn)性的研究方向沪哺，但也必須以目前技術(shù)能夠達到的程度為前提沈自。其次，要做出大家能夠廣泛接受的產(chǎn)品和成果辜妓，反之群眾接受度不高枯途，不利于收集反饋數(shù)據(jù)，以及推進研發(fā)的進展籍滴。

對于技術(shù)能夠產(chǎn)生怎樣的商業(yè)價值酪夷，不僅僅是市場團隊，研發(fā)團隊本身也在挖掘孽惰。以基于跨模態(tài)理解的繪畫生成技能為例晚岭，未來將有可能應(yīng)用在兒童繪本創(chuàng)作中。以唱歌為例勋功，目前原創(chuàng)詞曲是稀缺資源坦报，日后微軟小冰如果能在這方面有建樹，也將會有巨大的想象空間狂鞋。

微軟小冰團隊進一步表示片择，只有技術(shù)成果達到理想狀態(tài)，才會推向市場要销」够兀回到今年第七代微軟小冰發(fā)布 AI beings 完整框架 Avatar Framework 時所傳達的宗旨，讓微軟小冰的能力形成一個通用型的平臺疏咐，幫助廠商打造各種各樣的 AI纤掸，「孕育出一片 AI 森林」。

PS.福利大放送
整場 Workshop 干貨滿滿浑塞，一篇文章無法精細覆蓋到每一個技術(shù)點借跪。本文提到的所有技術(shù)點，微軟（亞洲）互聯(lián)網(wǎng)工程院均已經(jīng)發(fā)布了相應(yīng)技術(shù)成果的論文酌壕。
感興趣的技術(shù)小伙伴掏愁，可在深圳灣（ID:shenzhenware）公眾號留言「微軟小冰」四個字，獲取微軟小冰技術(shù)相關(guān)學術(shù)論文

微軟小冰

深圳灣（微信公眾號 ID：shenzhenware）是最早也是最活躍的硬件創(chuàng)新社區(qū)和媒體卵牍，關(guān)注「軟件+硬件」帶來的場景和交互創(chuàng)新果港，以及與平臺和應(yīng)用相連的產(chǎn)業(yè)鏈升級。

版權(quán)聲明：本文系深圳灣原創(chuàng)糊昙，轉(zhuǎn)載或摘錄請先獲得授權(quán)辛掠。
深圳灣微信公眾號：shenzhenware。深圳灣同時在頭條號释牺、企鵝號萝衩、知乎等主流媒體站開設(shè)專欄板塊，歡迎關(guān)注没咙。轉(zhuǎn)載猩谊、約稿、投稿祭刚、團隊報道請在公眾號對話框回復關(guān)鍵字并留下聯(lián)系方式牌捷。

上一篇：Nreal 聯(lián)合運營商將進韓國市場，開發(fā)者套件全球預(yù)售

下一篇：安全防護層層加碼涡驮，新一代耐用戰(zhàn)神 OPPO A5 Pro 正式開售