哈曼宋柏勛：人機交互和人際溝通畢竟不同庄涡，語音到底怎樣做才算自然评甜？| WARE 2017

Uploads%2farticles%2f11691%2fware 22.001

2017-07-19

哈曼宋柏勛：人機交互和人際溝通畢竟不同，語音到底怎樣做才算自然生宛？| WARE 2017

盡管語音智能在追求像人一樣的自然交互县昂，但人際溝通和人機交互畢竟還有許多差異的。

「我們談語音交互的時候，說的當然是人用語音跟機器交互莱睁。但現(xiàn)在我們思考的是待讳，如何讓人與機器的交互方式回歸到像人與人交談一樣自然，這才是我們發(fā)展技術(shù)想要追求的目的缩赛“夜浚」

在深圳灣「WARE 2017 語音智能平臺與應用峰會第 II 季」上，哈曼（Harman）麥克風系統(tǒng)負責人宋柏勛比較了人際語言溝通和人機語音交互之間的異同酥馍，從語音交互的需求辩昆、人機聽覺的差異、以及聲音信號的處理等方面旨袒，淺析了如何讓人機語音交互更接近人與人自然對話的問題汁针。

自然的交互≠完全相同

「現(xiàn)在語音技術(shù)的努力方向，主要還是在聽懂人在說什么砚尽，層面停留在人對機器的控制施无。」宋柏勛說必孤，「而未來的需求則是要讓機器更了解你猾骡，帶有人與人交談的情緒性，知道你是誰敷搪，知道與你互動與其他人互動是不同的兴想。」

盡管語音智能在追求像人一樣的自然交互赡勘，但人際溝通和人機交互畢竟還有許多差異的嫂便。

人機交互需要高的識別率，需要語音方面的強化闸与，能夠通過聲紋識別分辨不同的對象毙替，同時岸售，還要求機器的可控。

「比如你讓它關(guān)電視它就要關(guān)電視厂画，說了三遍它還沒反應你就覺得產(chǎn)品有問題了凸丸。」宋柏勛說木羹，但人與人交談的重點則并不是追求這種絕對的控制甲雅。

人與人的交談解孙，除了需要清晰的語音坑填，還帶有情緒性，這種情緒語氣本身也在傳遞信息弛姜。此外脐瑰，在聆聽的專注性上，人可以有意識地進行選擇廷臼。

二者的這些方面的差異苍在，有的需要彌合從而增強人機語音交互的自然程度，而有的則是基于交互對象的固有差異荠商，如何區(qū)分和兼顧這兩種差異寂恬，是實現(xiàn)自然語言交互的關(guān)鍵。

大腦并不是這樣「聽」的

現(xiàn)在的語音識別技術(shù)莱没，多數(shù)是通過分析下圖這樣的聲音頻譜特征來識別語言內(nèi)容初肉。

「但人的聽覺感知可不是這樣基于聲音頻譜做傅里葉分析∈味悖」宋柏勛說牙咏，「人的聽覺是聲音引起耳蝸內(nèi)基底膜振動，產(chǎn)生神經(jīng)細胞興奮將振動轉(zhuǎn)化為脈沖電信號嘹裂，傳遞到大腦的聽覺皮質(zhì)來解析妄壶。」這與現(xiàn)在語音識別技術(shù)中使用的方式是十分不同的寄狼。

「我們嘗試用信號處理丁寄、機器學習等技術(shù)解決聲音上的問題，需要花費大量的資源泊愧，是因為我們在技術(shù)上認知的聲音特征和大腦所認知的是十分不同的伊磺，大腦感知聲音的方式在另一維度上∑绰眩」

「這也是為什么人只要用兩只耳朵奢浑，就能在復雜的空間識別不同的聲音，在多個人講話的時候腋腮，專注聆聽其中一個人雀彼。這與人耳的構(gòu)造壤蚜、聲音信號傳遞過程中的控制和處理都密切相關(guān)』惭疲」

「這個過程中的聲音信號處理十分復雜袜刷，但神經(jīng)心理等學科的研究已經(jīng)發(fā)現(xiàn)這個過程中的許多機制，并試圖通過算法把這個復雜的機制轉(zhuǎn)化為可實現(xiàn)的信號處理方式莺丑，這是為復雜的聲音環(huán)境創(chuàng)造出更好信息處理方式的重要方向著蟹。」

哈曼想做的是人工智能的耳朵

作為一家一直深度鉆研聲音的傳統(tǒng)音頻廠商梢莽，哈曼試圖做的萧豆，就是在語音智能體系中為人工智能提供足夠好的「耳朵」和「嘴巴」，這也是哈曼公布 SONIQUE 語音識別方案的初衷昏名。

「盡管語音智能在市場上已經(jīng)開始興起，但在制造上轻局，在如何控制好音質(zhì)洪鸭，如何自定義規(guī)格，以及好與不好的標準制定等方面都還面臨著挑戰(zhàn)仑扑±谰簦」

針對不同應用場景，哈曼開發(fā)了一系列麥克風元件和專門為語音識別設計的低失真喇叭镇饮，通過硬件和算法的搭配在不同場景下實現(xiàn)性能優(yōu)秀的聲學解決方案蜓竹。

而在未來應用方向上盒让，語音除了作為人工智能的交互接口梅肤，進行語音控制、語音通話等功能外邑茄，宋柏勛還特別提到了基于聲紋識別的個人化的重要性姨蝴。最后，宋柏勛總結(jié)說肺缕，未來智能語音產(chǎn)業(yè)的發(fā)展重點左医，將落在訊號處理與機器學習的融合、市場專業(yè)分工化同木、產(chǎn)品落地與產(chǎn)業(yè)供應鏈完善浮梢、人機交互體驗的提升以及人才的培養(yǎng)等多個方面。

WARE2017

哈曼

Harman

UNIQUE

語音識別

語音交互

麥克風

版權(quán)聲明：本文系深圳灣原創(chuàng)彤路，轉(zhuǎn)載或摘錄請先獲得授權(quán)秕硝。
深圳灣微信公眾號：shenzhenware。深圳灣同時在頭條號洲尊、企鵝號远豺、知乎等主流媒體站開設專欄板塊奈偏，歡迎關(guān)注。轉(zhuǎn)載躯护、約稿惊来、投稿、團隊報道請在公眾號對話框回復關(guān)鍵字并留下聯(lián)系方式棺滞。

上一篇：Gowild 邱楠：知識圖譜是聊天機器人走向強人工智能的關(guān)鍵 | WARE 2017

下一篇：還別說裁蚁，耳機鑲鉆，真好看继准！