安全防護(hù)層層加碼秉颗,新一代耐用戰(zhàn)神 OPPO A5 Pro 正式開售

訊飛星火版《Her》全民開放,極速暢聊百變?nèi)嗽O(shè)斗幼,情緒價(jià)值拉滿
對話科大訊飛高建清:業(yè)界首個端到端極速超擬人交互是如何煉成的澎蛛?星火極速超擬人交互將在情感陪伴、機(jī)器人等場景大有可為
8 月 30 日蜕窿,科大訊飛星火極速超擬人交互技術(shù)正式上線訊飛星火 APP谋逻,率先面向全民開放體驗(yàn)。據(jù)了解桐经,這是國內(nèi)首個對標(biāo) GPT-4o 語音的大模型產(chǎn)品斤贰,用戶可在訊飛星火 APP 中直接體驗(yàn)使用。根據(jù)官方介紹次询,星火極速超擬人交互在響應(yīng)和打斷速度荧恍、情緒感知情感共鳴、語音可控表達(dá)、人設(shè)扮演四個方面實(shí)現(xiàn)重大突破送巡,讓整體交互體驗(yàn)更自然摹菠、更具情感。
上線當(dāng)天骗爆,科大訊飛研究院常務(wù)副院長高建清針對星火極速超擬人交互技術(shù)及應(yīng)用展開進(jìn)一步解讀次氨,不僅剖析了星火超擬人交互的「端到端」、「共情力」等核心技術(shù)亮點(diǎn)摘投,還為公眾勾勒出技術(shù)產(chǎn)業(yè)化的愿景圖煮寡。
業(yè)界首個「端到端」的極速交互體驗(yàn)
筆者第一時(shí)間搶先體驗(yàn)星火極速超擬人交互,最直觀的感受就是響應(yīng)速度極快犀呼,支持隨時(shí)打斷幸撕,可以識別不同的情緒并代入符合情境的對話和回復(fù),絲毫沒有「機(jī)械感」與「磕巴感」外臂,真的就像平時(shí)跟朋友或家人對話那樣隨和自然坐儿。其中,極速響應(yīng)是確保一切體驗(yàn)的基礎(chǔ)宋光,也是區(qū)別于其它語音產(chǎn)品的關(guān)鍵能力貌矿。
據(jù)悉,「端到端」技術(shù)框架是實(shí)現(xiàn)極速響應(yīng)的重點(diǎn)罪佳。目前在全世界范圍內(nèi)逛漫,框架模型算法持續(xù)演進(jìn),國外以 GPT-4o赘艳、特斯拉 FSD 等為代表的多模態(tài)端到端方案尽楔,已被證實(shí)可進(jìn)一步提升技術(shù)效果和用戶體驗(yàn)。而科大訊飛極速超擬人交互作為業(yè)界首個端到端極速超擬人交互第练,通過將此前級聯(lián)方案升級為統(tǒng)一神經(jīng)網(wǎng)絡(luò),直接實(shí)現(xiàn)語音到語音的「端到端」建模玛荞,大幅縮短響應(yīng)時(shí)間娇掏,做到了真正的極速。
而人類語言被稱為世界上最動聽的語言勋眯,是因?yàn)榫哂歇?dú)特的情緒感染力婴梧,能夠傳達(dá)復(fù)雜的情感和思想,實(shí)現(xiàn)文明的傳承和進(jìn)化客蹋。但長久以來塞蹭,智能語音與自然語言處理技術(shù)主要針對「內(nèi)容」模塊下功夫,比如能「聽懂」更多的語種讶坯,「解答」更多的問題番电,但想要獲得擬人化的對話體驗(yàn),還需要「內(nèi)容」與「情緒」等模塊協(xié)同作用。

大模型時(shí)代的到來漱办,恰好能讓不同的模塊化功能進(jìn)行「大統(tǒng)一」这刷。高建清表示:「以往語音交互系統(tǒng)都是不同的模塊,比如語音識別娩井、語音合成和大語言模型暇屋。而科大訊飛星火極速超擬人交互技術(shù)基于端到端大模型框架,并結(jié)合訊飛多維度語音屬性解耦表征訓(xùn)練模塊洞辣,實(shí)現(xiàn)情感咐刨、方言、韻律扬霜、音色等的可控定鸟,實(shí)現(xiàn)了對語音交互的擬人化升級⌒蠡樱」
大模型開始「情感共鳴」
星火極速超擬人技術(shù)還將星火大模型的「共情力」帶到了新的高度仔粥,在這次單交互系統(tǒng)上線之前,業(yè)界的交互系統(tǒng)大多沒有情感蟹但,均以中性情緒回復(fù)躯泰,或者個別系統(tǒng)有這種情感,但大多停留在文本層面华糖。而星火極速超擬人技術(shù)可以實(shí)現(xiàn)情感共鳴麦向,當(dāng)人機(jī)對話時(shí),機(jī)器可以理解你的聲音內(nèi)容客叉,包含情緒表達(dá)诵竭。高建清認(rèn)為,雖然目前系統(tǒng)暫時(shí)不能使用表情兼搏,但未來如果將表情卵慰、聲音內(nèi)容與聲音情緒三者結(jié)合在一起,將會是一條可行的新路徑佛呻。

星火極速超擬人語音的情緒感知能力裳朋,能夠感知到數(shù)十種音頻事件與情緒,比如喜怒哀樂吓著、害怕鲤嫡、困惑等,AI 會以「感同身受」的方式進(jìn)行語言組織和情緒表達(dá)绑莺。而情感共鳴會結(jié)合聲音和內(nèi)容等不同維度暖眼,在合適的情境采用合適的情感進(jìn)行回應(yīng),比如用戶開心的時(shí)候用笑聲呼應(yīng)心情纺裁,用戶悲傷的時(shí)候用安慰語氣進(jìn)行安撫诫肠,讓 AI 變得有血有肉有溫度。
共情力對于大模型是一項(xiàng)重要的基礎(chǔ)能力,或許在未來的人形機(jī)器人身上区赵,我們將看到共情力的具象表達(dá)惭缰。比如你一進(jìn)門,機(jī)器人向你笑臉相迎地問候道笼才,就像 1999 年科幻電影《機(jī)器管家》里面的人形機(jī)器人安德魯漱受,讓人機(jī)之間也有情感紐帶。當(dāng)然暢想這些還為時(shí)尚早骡送,現(xiàn)階段的星火極速超擬人交互更有另一部電影《Her》的既視感昂羡,TA 可以用笑聲回應(yīng)開心,用急促回應(yīng)憤怒摔踱,更自然虐先,更逼真,更還原真人對話的語境派敷。
至于快速打斷功能蛹批,這也是真人對話中經(jīng)常復(fù)現(xiàn)的狀況。比如你入住酒店問前臺客服篮愉,如果對方答非所問肯定當(dāng)即打斷腐芍;同理,沒耐心聽 AI 講一大堆話试躏,或者回答跑偏猪勇,立即打斷是人的生理本能〉咴蹋「這是個極其復(fù)雜的工程問題泣刹,需要去判定何時(shí)打斷、何時(shí)不應(yīng)打斷犀被,我們通過技術(shù)創(chuàng)新與強(qiáng)化底座認(rèn)知能力椅您,解決了打斷和響應(yīng)時(shí)間平衡的問題」鸭」高建清說道掀泳。
謀局未來,挖掘產(chǎn)業(yè)應(yīng)用價(jià)值洼地
針對星火極速超擬人交互的未來發(fā)展昌腰,高建清表示,星火極速超擬人交互的未來計(jì)劃是「三個更多」—— 即融入更多模態(tài)膀跌,具備圖片視頻模態(tài)輸入與超擬人虛擬人輸入遭商;融入更多語言,增加更多語言捅伤、方言的語音交互能力和翻譯能力劫流;以及持續(xù)拓展情感、人設(shè)種類,繼而實(shí)現(xiàn)諸如口技祠汇、唱歌等更多能力與更好體驗(yàn)仍秤。

根據(jù)中金企信國際咨詢測算的數(shù)據(jù),我國對話式人機(jī)交互核心產(chǎn)品的市場規(guī)模將在 2025 年達(dá)到 237 億元可很,直接帶動相關(guān)產(chǎn)業(yè)規(guī)模達(dá)到 1525 億诗力。同時(shí)語音語言技術(shù)與大模型結(jié)合將賦能更加廣闊的應(yīng)用場景,下游領(lǐng)域包括家電我抠、汽車苇本、消費(fèi)電子、金融菜拓、物流瓣窄、房產(chǎn)、政務(wù)纳鼎、醫(yī)療等俺夕,預(yù)計(jì)智能語音語言技術(shù)在垂直行業(yè)應(yīng)用的核心產(chǎn)品規(guī)模將在 2025 年達(dá)到 159.1 億元,帶動相關(guān)產(chǎn)業(yè)規(guī)模達(dá)到 875.1 億元贱鄙。

據(jù)高建清介紹劝贸,星火極速超擬人語音交互在商用領(lǐng)域大致分為三個層級。第一層是閑聊陪伴場景贰逾,將在兒童玩具悬荣、情感陪伴等品類上增強(qiáng)情感表達(dá)能力。第二層是機(jī)器人場景疙剑,結(jié)合多模態(tài)能力會加強(qiáng)產(chǎn)品競爭氯迂。第三層是智能汽車、智能家電等場景言缤,讓車機(jī)聊天更具情感嚼蚀,有助于提升車企智能化水平,包括奇瑞汽車管挟、中國一汽轿曙、大眾汽車等車企都是訊飛星火的合作伙伴。
無論是從技術(shù)迭代角度僻孝,還是從用戶體驗(yàn)角度导帝,星火極速超擬人交互的創(chuàng)新,正讓語音交互從「能用」穿铆、「好用」走向「常用」的新階段您单。以訊飛星火為代表的大模型創(chuàng)新,或?qū)⒅厮苷Z音交互領(lǐng)域荞雏,推動語音產(chǎn)業(yè)新變革虐秦,帶來諸如汽車平酿、機(jī)器人、家電等更廣闊的應(yīng)用空間悦陋,推動萬物互聯(lián)時(shí)代的加速到來蜈彼。