還別說糕伐,耳機鑲鉆砚殿,真好看!
優(yōu)必選:以一個過來人的身份告訴創(chuàng)業(yè)者钦椭,如何通過 Alexa 實現(xiàn)語音助手的海外本地化丨WARE 2017
若要將智能語音硬件產(chǎn)品出口到海外漾抬,可利用 Alexa 更好的實現(xiàn)產(chǎn)品落地宿亡。
在國內(nèi)纳令,做智能硬件的不少挽荠,其中有不少出口國外的產(chǎn)品。那么泊碑,搭載語音交互功能的產(chǎn)品在進入海外市場時坤按,最主要的還是要考慮語音交互的本土化問題。在深圳灣舉辦的「WARE 2017 語音智能平臺與應(yīng)用峰會」中馒过,優(yōu)必選 Alpha 產(chǎn)品線的負責(zé)人梁嘉豪以一個創(chuàng)業(yè)公司的視角向大家分享了其智能語音助手海外本地化探索的過程臭脓。
梁嘉豪曾從無到有搭建了優(yōu)必選的產(chǎn)品團隊,現(xiàn)主要責(zé)優(yōu)必選人工語音助手相關(guān)產(chǎn)品:Alpha2腹忽,Lynx来累,Beta,Alpha1 等產(chǎn)品窘奏。在智能語音交互上有豐富的實戰(zhàn)經(jīng)驗嘹锁,對國內(nèi)外智能語音行業(yè)有深刻的了解。
優(yōu)必選 Alpha 2 于 2016 年啟動了英文版語音的研發(fā)着裹,但難以實現(xiàn)海外本地化英文語義的編寫领猾,基于這樣的評估,Alpha 2 隨后接入 Api.ai(不需在每個場景中編寫語義)骇扇,World Frame Alpha 和 Alice(讓語音更聰明)摔竿。經(jīng)過一路以來的探索,Alpha 2 最終選擇了 Alexa少孝,并于 2017 年的 CES 上發(fā)布搭載 Alexa 的 Lynx 機器人继低。
海外本地化面臨哪些問題?
可以說稍走,優(yōu)必選已經(jīng)把能走的路都走了一遍袁翁。梁嘉豪講述了他們這一路以來所遇到的問題柴底,可歸結(jié)為以下三大類:
1.語言本地化:翻譯是語音軟件海外本地化最簡單的辦法,但事實上粱胜,人工智能類產(chǎn)品因擁有海量數(shù)據(jù)柄驻,單靠翻譯是不足夠的。語言本地化包括喚醒年柠、ASR/TTS凿歼、NLP/NLU 個三方面褪迟。其中冗恨,喚醒指的是需要對喚醒詞進行外文轉(zhuǎn)化,NLP/NLU 則需要運用海量的本地數(shù)據(jù)進行訓(xùn)練味赃。
2.內(nèi)容本地化:包括考慮新聞掀抹、故事、時區(qū)心俗、音樂傲武、天氣、版權(quán)等的當(dāng)?shù)貙傩猿情弧F渲芯纠鏅?quán)問題最為棘手,如音樂無法得到當(dāng)?shù)貞?yīng)用的授權(quán)狠持,將無法給用戶帶來順暢的體驗疟位。
3.云服務(wù)本地化:即服務(wù)器部署地的問題。若國內(nèi)產(chǎn)品在國外使用時喘垂,依舊走國內(nèi)服務(wù)器通道甜刻,則難以為用戶提供良好的體驗。
對于沒有當(dāng)?shù)鼗瘍?yōu)勢的創(chuàng)業(yè)公司來說正勒,Alexa 是不錯的選擇
梁嘉豪表示得院,對于一個沒有當(dāng)?shù)鼗瘍?yōu)勢的創(chuàng)業(yè)公司來說,接入 Alexa 是最佳的選擇章贞,原因有以下幾點:
1.Alexa 能夠提供極致的用戶體驗祥绞,它要求麥克風(fēng)在聽到聲音、回應(yīng)用戶的整個過程需要保持在 1.5s 以內(nèi)鸭限,避免因等待時間過長導(dǎo)致用戶產(chǎn)生等待焦慮蜕径。將這個反應(yīng)時間從 4s 縮短到 1.5s,Alexa 團隊先后花了 3 年時間里覆。
2.Amazon 能夠提供科學(xué)丧荐、完整的接入指引,清楚地向廠商指示喧枷,機器在被喚醒虹统、監(jiān)聽弓坞、請求網(wǎng)絡(luò)等狀態(tài)下,需要應(yīng)用光效车荔、聲音等向用戶表明機器自身所處的狀態(tài)渡冻。
3.便捷的技能開發(fā)方式,因大部分中忧便、小廠商么沒有足夠的 NLP/NLU 數(shù)據(jù)族吻,Alexa 能夠讓廠商免去對 NLP/NLU 這部分的考慮。
4.體系的認證體系珠增,這一點確保任何接入 Alexa 的產(chǎn)品都能為用戶提供極致的用戶體驗超歌。
亞馬遜資質(zhì)驗證,需要注意哪些蒂教?
梁嘉豪進一步向大家講述了亞馬遜資質(zhì)驗證體系的框架:
麥克風(fēng)陣列(喚醒巍举、誤喚醒、識別):分別是安靜和噪音環(huán)境下的喚醒率和誤喚醒率檢測凝垛。
用戶體驗(燈效懊悯、反饋、延時):包括反饋機制是否到位梦皮,讓用戶清楚機器所處的狀態(tài)炭分,機器向用戶反饋的時間不超過 1.5s。
大音頻文件播放體驗(用戶等待時長):Amazon 擁有海量的內(nèi)容剑肯,且不同內(nèi)容供應(yīng)商所提供的音頻文件格式各不相同捧毛,要求所提供的音頻文件能夠被播放,雖然對用戶等待時長沒有固定數(shù)值退子,但要求在一個相對較短的時間范圍內(nèi)岖妄。
另外,梁嘉豪還說道寂祥,目前廠商從向 Amazon 提交申請到最終讓產(chǎn)品接入 Alexa 的時長大概為 2 個月荐虐。但需要注意的是,隨著越來越多廠商的申請接入丸凭,申請周期將會延長福扬。
問答
Q:放在機器人上的人工智能跟放在音箱上的有一定區(qū)別,我們會期待除了聲音之外還會有更多的結(jié)合的交互惜犀。因為優(yōu)必選做機器人铛碑,應(yīng)用了 Alexa 之后是否會有一些搭配?比如說做一些多模塊的交互來與語音交互進行結(jié)合虽界,也就是在交互方面是怎么思考的汽烦?
A:優(yōu)必選其實是做人形機器人,與音箱最大的不同是莉御,人形機器人有肢體撇吞,可以有豐富的能力俗冻。所以說,我們在接入 Alexa 時結(jié)合了硬件的特點牍颈,有更豐富的肢體語言迄薄,比如讓機器人可以跟著用戶一起做瑜伽。同時我們會在系統(tǒng)上加深運用煮岁,比如開放一些針對家庭監(jiān)控讥蔽、視頻通話的功能,讓我們的產(chǎn)品跟 Alexa 區(qū)別出來画机。
Q:對兒童的聲音有沒有什么特別的識別方法冶伞?這個問題擴展出去是,在家庭場景下面色罚,我們針對一個兒童能識別出他的聲音碰缔,然后給它對應(yīng)到是否兒童的內(nèi)容账劲,就比如更加安全的環(huán)境戳护。
A:因為我們機器人是相通的,針對不同的用戶調(diào)取不同的應(yīng)用瀑焦,舉個簡單的例子腌且,我們可以調(diào)取整個攝像頭,然后通過后臺的算法去算出這個用戶大概是多少歲的榛瓮,如果他是小于 16 歲铺董,就把他識別是一個兒童,這樣我們就可以去調(diào)取針對兒童的語音識別算法禀晓,同時為他調(diào)取一些跟兒童相關(guān)的內(nèi)容精续,比如兒歌。這就要去跟別的硬件進行深度的結(jié)合粹懒,如果僅僅通過語音的話其實不太夠重付。