還別說枉证,耳機鑲鉆,真好看锰瘸!
哈曼宋柏勛:人機交互和人際溝通畢竟不同,語音到底怎樣做才算自然生宛?| WARE 2017
盡管語音智能在追求像人一樣的自然交互县昂,但人際溝通和人機交互畢竟還有許多差異的。
「我們談語音交互的時候,說的當然是人用語音跟機器交互莱睁。但現(xiàn)在我們思考的是待讳,如何讓人與機器的交互方式回歸到像人與人交談一樣自然,這才是我們發(fā)展技術(shù)想要追求的目的缩赛“夜浚」
在深圳灣「WARE 2017 語音智能平臺與應用峰會 第 II 季」上,哈曼(Harman)麥克風系統(tǒng)負責人宋柏勛比較了人際語言溝通和人機語音交互之間的異同酥馍,從語音交互的需求辩昆、人機聽覺的差異、以及聲音信號的處理等方面旨袒,淺析了如何讓人機語音交互更接近人與人自然對話的問題汁针。
自然的交互≠完全相同
「現(xiàn)在語音技術(shù)的努力方向,主要還是在聽懂人在說什么砚尽,層面停留在人對機器的控制施无。」宋柏勛說必孤,「而未來的需求則是要讓機器更了解你猾骡,帶有人與人交談的情緒性,知道你是誰敷搪,知道與你互動與其他人互動是不同的兴想。」
盡管語音智能在追求像人一樣的自然交互赡勘,但人際溝通和人機交互畢竟還有許多差異的嫂便。
人機交互需要高的識別率,需要語音方面的強化闸与,能夠通過聲紋識別分辨不同的對象毙替,同時岸售,還要求機器的可控。
「比如你讓它關(guān)電視它就要關(guān)電視厂画,說了三遍它還沒反應你就覺得產(chǎn)品有問題了凸丸。」宋柏勛說木羹,但人與人交談的重點則并不是追求這種絕對的控制甲雅。
人與人的交談解孙,除了需要清晰的語音坑填,還帶有情緒性,這種情緒語氣本身也在傳遞信息弛姜。此外脐瑰,在聆聽的專注性上,人可以有意識地進行選擇廷臼。
二者的這些方面的差異苍在,有的需要彌合從而增強人機語音交互的自然程度,而有的則是基于交互對象的固有差異荠商,如何區(qū)分和兼顧這兩種差異寂恬,是實現(xiàn)自然語言交互的關(guān)鍵。
大腦并不是這樣「聽」的
現(xiàn)在的語音識別技術(shù)莱没,多數(shù)是通過分析下圖這樣的聲音頻譜特征來識別語言內(nèi)容初肉。
「但人的聽覺感知可不是這樣基于聲音頻譜做傅里葉分析∈味悖」宋柏勛說牙咏,「人的聽覺是聲音引起耳蝸內(nèi)基底膜振動,產(chǎn)生神經(jīng)細胞興奮將振動轉(zhuǎn)化為脈沖電信號嘹裂,傳遞到大腦的聽覺皮質(zhì)來解析妄壶。」這與現(xiàn)在語音識別技術(shù)中使用的方式是十分不同的寄狼。
「我們嘗試用信號處理丁寄、機器學習等技術(shù)解決聲音上的問題,需要花費大量的資源泊愧,是因為我們在技術(shù)上認知的聲音特征和大腦所認知的是十分不同的伊磺,大腦感知聲音的方式在另一維度上∑绰眩」
「這也是為什么人只要用兩只耳朵奢浑,就能在復雜的空間識別不同的聲音,在多個人講話的時候腋腮,專注聆聽其中一個人雀彼。這與人耳的構(gòu)造壤蚜、聲音信號傳遞過程中的控制和處理都密切相關(guān)』惭疲」
「這個過程中的聲音信號處理十分復雜袜刷,但神經(jīng)心理等學科的研究已經(jīng)發(fā)現(xiàn)這個過程中的許多機制,并試圖通過算法把這個復雜的機制轉(zhuǎn)化為可實現(xiàn)的信號處理方式莺丑,這是為復雜的聲音環(huán)境創(chuàng)造出更好信息處理方式的重要方向著蟹。」
哈曼想做的是人工智能的耳朵
作為一家一直深度鉆研聲音的傳統(tǒng)音頻廠商梢莽,哈曼試圖做的萧豆,就是在語音智能體系中為人工智能提供足夠好的「耳朵」和「嘴巴」,這也是哈曼公布 SONIQUE 語音識別方案的初衷昏名。
「盡管語音智能在市場上已經(jīng)開始興起,但在制造上轻局,在如何控制好音質(zhì)洪鸭,如何自定義規(guī)格,以及好與不好的標準制定等方面都還面臨著挑戰(zhàn)仑扑±谰簦」
針對不同應用場景,哈曼開發(fā)了一系列麥克風元件和專門為語音識別設計的低失真喇叭镇饮,通過硬件和算法的搭配在不同場景下實現(xiàn)性能優(yōu)秀的聲學解決方案蜓竹。
而在未來應用方向上盒让,語音除了作為人工智能的交互接口梅肤,進行語音控制、語音通話等功能外邑茄,宋柏勛還特別提到了基于聲紋識別的個人化的重要性姨蝴。最后,宋柏勛總結(jié)說肺缕,未來智能語音產(chǎn)業(yè)的發(fā)展重點左医,將落在訊號處理與機器學習的融合、市場專業(yè)分工化同木、產(chǎn)品落地與產(chǎn)業(yè)供應鏈完善浮梢、人機交互體驗的提升以及人才的培養(yǎng)等多個方面。