亞馬遜 Alexa 技能數(shù)突破 5 萬大關(guān)昌讲!這篇解讀幫你了解這個數(shù)字的意義
如何開發(fā)語音 AI 技能,小雅和小豹的產(chǎn)品經(jīng)理做了一篇詳細(xì)的總結(jié)
一文了解語音技能開發(fā)的前世今生,并學(xué)會語音技能開發(fā)
在今年 9 月,亞馬遜宣布 Alexa 平臺上的技能已經(jīng)超過 5 萬個辩恼。這是一件令語音 AI 從業(yè)者歡欣鼓舞的事雇庙。越來越多的人注意到語音交互的潛力谓形,開始制作語音交互技能。在國內(nèi)疆前,在百度 DuerOS 等語音平臺的教育和推動下寒跳,有超過 2 萬名開發(fā)者參與了技能開發(fā)的開發(fā)實(shí)踐。
本文的作者是一名產(chǎn)品經(jīng)理竹椒,曾經(jīng)參與了小雅 AI 音箱童太、小豹 AI 音箱的技能打造,以個人開發(fā)者的身份為 DuerOS 平臺開發(fā)過一些技能胸完。借著參與小度技能開發(fā)大賽的機(jī)會书释,他對技能開發(fā)的經(jīng)驗(yàn)做了總結(jié),分享給大家赊窥。全文授權(quán)深圳灣編輯整理并發(fā)布爆惧。
前世
語音交互技能,也叫「技能」锨能,這是個新鮮事物扯再。在兩年前,它還只有英文名 skill址遇,而定義語音 skill 的熄阻,就是亞馬遜的現(xiàn)象級語音交互產(chǎn)品 Echo 智能音箱。
時間回到 2015 年倔约,當(dāng)時雖然已有不少廠商發(fā)布了智能音箱秃殉,但是大家還只是用來聽聽歌,查查天氣浸剩,雖然這兩個最常用的技能钾军,在當(dāng)時也沒有很完善。
2015 年 7 月乒省,亞馬遜宣布向第三方開放部分語音交互能力巧颈,正是這個嘗試,讓 Alexa 平臺誕生了最早的一批第三方技能袖扛,如:Crystal Ball(水晶球)砸泛,Math Puzzles(猜數(shù)字),StubHub(今晚干啥)蛆封。
現(xiàn)在看來惨篱,這三個技能都很基礎(chǔ)盏筐,甚至有點(diǎn)簡陋。比如砸讳,Crystal Ball 水晶球這個技能琢融,簡單到任何問題界牡,Alexa 的回答都是 Yes 或 No,而且還是隨機(jī)的漾抬,作用就是協(xié)助用戶在面對糾結(jié)的問題時做出選擇宿亡。你問設(shè)備:Alexa,我該減肥嗎纳令?設(shè)備回答:Yes挽荠。第二次你問設(shè)備:Alexa,我該減肥嗎平绩?設(shè)備回答的可能就是 No圈匆。你問什么問題設(shè)備不管,設(shè)備只管回答 Yes 和 No捏雌。我猜這個技能也許實(shí)現(xiàn)起來只用了 3~4 行代碼吧跃赚。
Math Puzzles,猜數(shù)字性湿,這個技能實(shí)現(xiàn)起來也不難来累。設(shè)備會播報一串?dāng)?shù)字,這串?dāng)?shù)字有一定邏輯窘奏,你說出下一個數(shù)字就可以了。比如葫录,設(shè)備會問 2,4,6,8 的下個數(shù)字是多少着裹?你對 Alexa 說 10,就算答對了米同。
StubHub骇扇,今晚干啥,稍微復(fù)雜些面粮。Alexa 會把設(shè)備的地理位置給到開發(fā)者少孝,所以當(dāng)你問 Alexa 今晚干啥的時候,Alexa 可以根據(jù)地理位置熬苍,向你推薦附近的電影稍走、沙龍、活動和派對柴底。對話示例如下:
用戶提問:Alexa婿脸,今晚干點(diǎn)啥?
設(shè)備回答:附近的科技館柄驻,有一場最新上映的球幕電影狐树,時間是晚上 8 點(diǎn)。
但是鸿脓,如果用戶追問:Alexa抑钟,演講人是誰涯曲?設(shè)備就回答不上了。是的在塔,Alexa 開放出來的技能幻件,最早并沒有多輪對話。
進(jìn)化
2016 年 1 月揪利,Alexa 的 skill 數(shù)量達(dá)到了 130 個。Alexa 團(tuán)隊(duì)興高采烈的發(fā)布了一個 infographic(信息圖)來向公眾介紹成果狠持。
這一行為疟位,把亞馬遜的老大貝索斯搞炸了,趁著開會喘垂,把 Alexa 團(tuán)隊(duì)教育一番:130甜刻?Wtf,怎么這么少...(據(jù)美國媒體 The information 報道正勒,但亞馬遜官方不予置評得院。)貝索斯要求技能開發(fā)的速度要加快、加快章贞、再加快祥绞。
2016 年 11 月,也就是 10 個月之后鸭限,Alexa 的 skill 數(shù)量達(dá)到了驚人的 5000 個蜕径!這個時候,美國人民已經(jīng)可以用 Alexa 叫 Uber败京、聽 Twitter 的內(nèi)容了兜喻,智能音箱終于擺脫了只能聽歌、查天氣的窘境赡麦∑咏裕回過頭來看,這是不是還要部分感謝貝索斯開會時拍桌子啊泛粹。
等冬天過完车荔,到了 2017 年上半年,對硅谷隨時保持敏感的國內(nèi)互聯(lián)網(wǎng)大佬們戚扳,順利把國內(nèi)智能音箱的大戰(zhàn)點(diǎn)燃忧便,做智能音箱設(shè)備的廠商多到上百家,BATJM 等一線互聯(lián)網(wǎng)公司和語音 AI 公司,紛紛上線語音智能開放平臺珠增。在深圳超歌,三個月內(nèi),更是連續(xù)上演了兩場影響深遠(yuǎn)的語音智能峰會蒂教。
定義
伴隨著行業(yè)熱潮,平臺推動剑肯,開發(fā) skill 的人逐漸多了起來捧毛。也正是在這個時候,skill 開始有了中文名让网,而翻譯為「技能」是再合適不過了呀忧。
根據(jù)《辭海》的詞條說明溃睹,技能是運(yùn)用知識和經(jīng)驗(yàn)執(zhí)行一定活動的能力而账。放到語音 AI 的場景里,語音交互技能就是運(yùn)用自然語言對話的交互方式因篇,實(shí)現(xiàn)影音娛樂福扬、信息查詢、生活服務(wù)等的功能惜犀,簡稱「技能」。
關(guān)于技能的前世今生狠裹,還可以參考深圳灣在 2017 年的兩篇關(guān)于語音技能的特稿(1虽界、2)
技能有哪些分類?
有了名稱涛菠,就要把技能再做一下歸類莉御。
目前,不管是亞馬遜 Alexa 平臺俗冻,還是國內(nèi)的各家語音 AI 平臺礁叔。技能的分類標(biāo)準(zhǔn)都很像,基本是把技能分成三大類:自定義技能迄薄、智能家居技能琅关、內(nèi)容播報技能。
自定義技能主要有兩類讥蔽,生活服務(wù)類涣易、娛樂游戲類画机。比如上文介紹的幾個技能,都屬于自定義技能新症。
智能家居技能主要是用來對其他智能設(shè)備進(jìn)行語音控制步氏,接口的完善性和語音交互已經(jīng)趨于成熟,我聽說有的團(tuán)隊(duì)把硬件接入 Alexa 可能一天時間都用不到(審核時間不算)徒爹。這方面荚醒,對 Alexa 智能設(shè)備做過大量報道的深圳灣,給到我的解釋是隆嗅,Echo 的熱銷帶動了大批的智能設(shè)備廠商涌入界阁,這背后少不了 IoT 方案商的推動,他們提供的 Alexa 接入方案榛瓮,可以大大提高設(shè)備智能化的速度铺董。
而內(nèi)容播報技能則是對新聞和信息所做的語音傳遞。Alexa 平臺在很早的時候禀晓,就集合了幾乎所有美國的主流媒體:NYT精续、WSJ、NPR粹懒、CNN 等等重付,而當(dāng)時,媒體機(jī)構(gòu)對于語音這個新興的平臺凫乖,還是處于卡位階段确垫。
有媒體稱,在和 CNN 的受眾發(fā)展部副總裁艾倫·西格爾交流時帽芽,就發(fā)現(xiàn)他們暫時還是把 Alexa 這個媒體投放渠道放在了戰(zhàn)略圈的最外層删掀,和 Apple Watch 等渠道平級。但他依然看好這種形式的潛力导街,畢竟披泪,美國已經(jīng)有五分之一的家庭擁有了智能音箱。
而在國內(nèi),騰訊新聞和新華社等媒體機(jī)構(gòu)泽论,都已經(jīng)開始嘗試把新聞 feed 流接入到語音智能平臺艾少,并且在小雅 AI 音箱、小豹 AI 音箱翼悴、小度音箱等設(shè)備上落地缚够。
技能開發(fā)的核心:VUI
以上這三種技能分類,在開發(fā)上側(cè)重點(diǎn)也會不同毯辅。比如埂伦,自定義技能,它的核心就是是語音交互(voice interactive)思恐。
語音交互就是將人的語言轉(zhuǎn)換成應(yīng)用的 request(面向系統(tǒng)的請求)的模式沾谜,也就是 VUI(Voice UI),而我們之前談?wù)摰?UI 更多意義上是 GUI(Graphic UI)胀莹。要做好 VUI 的交互和 GUI 一樣基跑,都需要對細(xì)節(jié)提出更多更高的要求。
亞馬遜的 VUI 設(shè)計師 Amdrew Ku 就曾經(jīng)說過:「人類對于聲音的敏感是超出很多人的想象的描焰。」
過去很長一段時間媳否,VUI 方面積累的理論遠(yuǎn)遠(yuǎn)少于 GUI。市面上相對經(jīng)典的一本書是今年剛剛出版的《語音用戶界面設(shè)計》荆秦。
當(dāng)然篱竭,對于 VUI 這樣的新鮮事物,雖然著作出版物并不多步绸,網(wǎng)絡(luò)信息還是比較的豐富掺逼,亞馬遜 Alexa 平臺和國內(nèi)各家語音 AI 平臺也積累了不少經(jīng)驗(yàn),大家感興趣的話瓤介,平時可以多多關(guān)注吕喘。
技能開發(fā)有哪些 Know How?
1刑桑、起個好名字
技能開發(fā)和 App 開發(fā)有很多相同點(diǎn)氯质,首先一點(diǎn),名字非常重要祠斧。
在語音交互中闻察,技能名字不僅影響到用戶的打開意愿,更會影響到識別率梁肿。如果技能的名字太長,或者不好識別觅彰,用戶是根本無法進(jìn)入技能的吩蔑,如果這樣的情況發(fā)生,即便體驗(yàn)再優(yōu)良的技能也無法被用戶使用填抬。
另外烛芬,技能最好不要用生僻字。因?yàn)閾?jù)我觀察,目前 DuerOS 和其他語音 AI 平臺有很多的用戶可能是小朋友~
總結(jié)起來赘娄,一個好的名字應(yīng)該考慮到以下幾點(diǎn):
清晰易讀仆潮。發(fā)布技能前,可以自己一口氣讀三遍技能的名字遣臼,看看是否能順利的讀出來性置。另外一定要用真機(jī)測試功能,確弊嵫撸可以識別鹏浅,不然等上線再去改,可是會影響到線上用戶的體驗(yàn)屏歹。
體現(xiàn)技能功能隐砸。讓用戶知道這個技能是做什么的。如果能做的事情比較多蝙眶,就要拆分成幾個技能季希。基本原則是 Do one thing and do it well幽纷。
技能名稱不會產(chǎn)生混淆式塌,能讓用戶記住。技能商店的技能會越來越多霹崎,很多相似名稱的技能也會出現(xiàn)珊搀。這時,可以借鑒 App 起名字的方法尾菇,采用一些關(guān)聯(lián)實(shí)體物品的起名方法境析。比如,笑話類的技能派诬,就可以叫香蕉笑話劳淆、大象笑話。
2默赂、看數(shù)據(jù)
同樣可以借鑒 App 的做法沛鸵,在設(shè)計技能的初期,可以采用 MVP(Minimum Viable Product 最簡化可實(shí)行產(chǎn)品)的原則缆八,先發(fā)布一個簡化的技能曲掰,技能上線后再分析語音交互數(shù)據(jù),根據(jù)潛在需求對技能進(jìn)行迭代和完善奈辰,逐步增加功能和優(yōu)化體驗(yàn)栏妖。
數(shù)據(jù)能完整的呈現(xiàn)用戶使用路徑。通過分析語音交互數(shù)據(jù)奖恰,你可以很容易的發(fā)現(xiàn)用戶卡在什么地方吊趾,或者語音識別哪里出錯宛裕。
舉例來說,朋友開發(fā)了「周公解夢」這個技能论泛,在查看設(shè)備交互數(shù)據(jù)時揩尸,他發(fā)現(xiàn)用戶會說到一些設(shè)備無法識別的語句,比如「我們的懸崖」屁奏。很明顯岩榆,用戶想表達(dá)的意思是「我夢到懸崖」,所以需要在常用語句識別模型中提供「我們到XX」的語句了袁。這樣朗恳,以后再識別成「我們到XX」,設(shè)備就可以成功解析了载绿。
3粥诫、關(guān)注外表
技能的外表很重要。技能開發(fā)者應(yīng)該多花時間做個漂亮的 logo崭庸,這個點(diǎn)容易被忽視怀浆,畢竟,打開技能是通過語音識別怕享,而不是視覺發(fā)現(xiàn)执赡。但這不能想當(dāng)然,要知道函筋,用戶發(fā)現(xiàn)和安裝技能沙合,主要還是通過 App 端的操作。
除了 logo跌帐,技能的文字介紹也要好好優(yōu)化首懈。還要選擇一個技能分類,這樣用戶可以更方快捷的找到技能谨敛。
4究履、聽取用戶反饋
還可以做的是,通過各種渠道接觸用戶脸狸,聽取反饋最仑。比如,把聯(lián)系方式放到技能簡介中炊甲,發(fā)動親朋好友幫你測試技能泥彤,追著他們多提意見反饋。這樣卿啡,技能的迭代和優(yōu)化才有了方向吟吝。我會在技能介紹里留下我的 QQ 郵箱,當(dāng)技能的策劃開發(fā)遇到迷茫時牵囤,用戶的反饋往往能起到撥云見日的效果爸黄。
結(jié)語
小結(jié)一下,這篇文章主要分享了我作為一名 AI 音箱產(chǎn)品經(jīng)理揭鳞、開發(fā) AI 語音技能的經(jīng)驗(yàn)炕贵。介紹了語音技能(skill)的前世和進(jìn)化,技能的定義野崇,技能的分類称开,語音界面交互(VUI),以及開發(fā)技能的經(jīng)驗(yàn)總結(jié)乓梨。全文授權(quán)深圳灣編輯整理并發(fā)布鳖轰。
是的,人類對于聲音的敏感是超出很多人的想象的扶镀。亞馬遜的 VUI 設(shè)計師 Amdrew Ku 列舉了一個技能開發(fā)的案例:
在過去蕴侣,當(dāng)你與 Alexa 設(shè)備對話喊出「turn on my lights」的時候,它的回復(fù)是「OK」臭觉。當(dāng)我們把「OK」改成一個「独ト福」的聲音后,收到上萬名用戶抱怨蝠筑,反饋說我們把設(shè)備變成了一個機(jī)器人狞膘。我們就又把它改回「OK」。產(chǎn)品經(jīng)理要設(shè)計和開發(fā)一個優(yōu)秀的語音技能什乙,要對體驗(yàn)中的每一個細(xì)節(jié)都做持續(xù)優(yōu)化挽封。
百度 DuerOS 聯(lián)合深圳灣共同舉辦的「喚醒之旅 Workshop」系列活動即將開啟!11 月 18 日臣镣,優(yōu)質(zhì)對話式 AI 技能的交互設(shè)計與開發(fā)演練辅愿,喚醒之旅 Workshop 北京站 ,歡迎報名參與退疫!
本文作者:毛川渠缕,語音 AI 產(chǎn)品經(jīng)理,原小雅 AI 音箱褒繁、小豹 AI 音箱技能及軟件產(chǎn)品經(jīng)理亦鳞,在嘗試了一段時間的獨(dú)立開發(fā)者之后,現(xiàn)任喜馬拉雅小雅智能產(chǎn)品總監(jiān)和高級產(chǎn)品經(jīng)理棒坏。
本文編輯燕差、審校:陳壹零 / 深圳灣