Uploads%2farticles%2f16403%2fvisionos custom spatial gesture happy beam 2x
|
2024-05-31

定義下一代人機交互范式桂肌,可能不是眼手交互、或手表和戒指等明星外設

Rokid 產品經理談智能眼鏡的人機交互

編者注:本文源自 Rokid 投稿辛润,字里行間凝聚了 Rokid 團隊產品經理對人機交互的深刻洞見與前瞻性思考膨处。創(chuàng)業(yè)十年,從 AI 到 AR砂竖,Rokid 始終秉持著對產品不懈的思索與探索精神灵迫。

隨著科技的迅猛發(fā)展,人機交互方式正經歷著前所未有的變革晦溪。從最初的鍵盤瀑粥、鼠標到觸摸屏,再到現(xiàn)在的語音識別三圆、手勢識別狞换,每一次技術的躍遷都極大地提升了用戶體驗避咆,拓寬了人與機器的交流邊界。在眾多創(chuàng)新技術中修噪,眼手交互憑借其直觀查库、自然的特點,正逐漸成為行業(yè)關注的焦點黄琼。

作為一家專注于人機交互技術的產品平臺公司樊销,Rokid 始終關注人機交互領域的前沿動態(tài)。近期脏款,蘋果公司在眼手交互技術方面的探索引起了業(yè)界的廣泛關注围苫。這一技術的出現(xiàn),不僅為我們提供了全新的交互方式撤师,更對未來人機交互范式的發(fā)展產生了深遠的影響剂府。

本文將深入探討眼手交互技術的原理、應用現(xiàn)狀以及未來的發(fā)展趨勢剃盾。同時腺占,我們也將分析眼手交互在這一領域的探索成果,并結合行業(yè)實際探討其能否定義下一個人機交互范式痒谴。需要強調的是衰伯,本文旨在技術探討,不涉及任何產品之間的比較和評價积蔚。我們希望通過本文意鲸,能夠為廣大用戶帶來有價值的信息和思考。

01?眼手交互库倘,完美的輸入方式临扮?

眼手交互被作為了 Apple Vision Pro 的基礎交互方式。第一波使用過的人教翩,也都對這種提升效率的新交互方式感到驚訝杆勇。尤其是對于那些之前沒有接觸過 XR 設備的用戶來說,眼手交互無疑是一種全新的體驗饱亿。而這種交互方式之所以高效蚜退,主要得益于以下幾個方面:

1、焦點導航與注意力綁定:眼手交互將焦點導航和用戶的注意力綁定彪笼,省去了移動控件使光標瞄準目標的步驟钻注。

2、光標導航與操作分離:通過分離光標導航和操作指令配猫,減少了手部的運動幅恋,降低了長時間使用的疲勞感。

3泵肄、避免空間海森堡效應 (Heisenberg Effect of Spatial Interaction):在傳統(tǒng)的射線交互中捆交,用戶在確認操作時手部的微小抖動可能會導致射線偏移淑翼,而眼手交互有效避免了這一問題。

1-%E7%9C%BC%E6%89%8B%E4%BA%A4%E4%BA%92

△ 眼手交互品追,https://developer.apple.com/design/human-interface-guidelines/gestures

Vision Pro眼手交互方案的大多數性能指標都令人感到滿意玄括,但是在移動拖拽物體時會有點累,因為需要活動肘關節(jié)肉瓦,調動小臂和部分大臂的肌肉遭京。相比之下,Quest 的手柄方案只需要用到手腕和手指泞莉。在 SIGCHI 2024 會議上哪雕,META 也展示了一篇用微手勢代替物理搖桿的方案,就像用大拇指刷手機戒财,幾乎不會產生疲勞热监。

Vision Pro 暫時沒有使用這種方案的原因可能是優(yōu)先考慮更符合直覺的方式捺弦,盡量降低新用戶的學習成本饮寞,畢竟眼手交互還不是我們的習慣

2-STMG

△ STMG 微手勢集由針對食指橈側執(zhí)行的拇指動作組成列吼。它們包括拇指點擊和向左幽崩、向右、向前和向后四個方向的滑動寞钥。

眼動交互方面的專家 Ken Pfeuffer 在今年 2 月慌申,也就是 Vision Pro 正式發(fā)售前,在 Arxiv 和 Medium 上發(fā)表了一篇論文理郑,簡短總結了他們團隊過去的研究蹄溉,也提出了眼手交互的設計原則和面臨的挑戰(zhàn)。

(參考鏈接:https://medium.com/antaeus-ar/design-principles-issues-for-gaze-and-pinch-interaction-a95e251169ae)

隨著 Vision Pro 的熱度下降您炉,行業(yè)里也出現(xiàn)了一些對蘋果眼手交互質疑的聲音柒爵。那么,這次蘋果還能復制一次「多點觸控」式的成功赚爵?能再次引領和定義新一代人機交互范式嗎棉胀?

可以確定的是,眼手交互無法像多點觸控之于手機那樣覆蓋設備的所有使用場景冀膝,甚至打字等最基礎的交互體驗都不能算順暢唁奢。所以 Vision Pro 引入了手部直接交互作為代償,好在對于用戶來說窝剖,切換兩種交互模式的方法足夠直觀好用麻掸。

3-%E6%89%8B%E9%83%A8%E8%BF%91%E5%9C%BA%E4%BA%A4%E4%BA%92

△ 手部近場交互

讓我們來總結一下眼手交互目前遇到的挑戰(zhàn):

1、學習成本:眼手交互作為一種全新的交互方式赐纱,與以往的交互習慣截然不同脊奋,用戶需要投入時間學習如何有效使用采郎。

2、魯棒性問題:眼手交互的精確度有待提高狂魔,目前誤觸的可能性較大蒜埋。用戶可能在不經意間將拇指靠近食指,而被系統(tǒng)誤識別為操作指令最楷。而在弱光環(huán)境或攝像頭看不到的區(qū)域整份,又容易識別不到。

3籽孙、交互動作的局限性:目前支持的交互動作單一烈评,僅支持由捏合動作(pinch)拓展的基本手勢。

4犯建、觸覺反饋單一:現(xiàn)有的觸覺反饋主要來自于用戶自身的手部動作(指尖捏合時的觸感)讲冠,缺乏更豐富的觸感體驗。

5适瓦、眼手協(xié)調性:在執(zhí)行捏合等動作之前竿开,用戶的注視點可能已經轉移到下一個目標上,尤其是在進行打字等需要快速連續(xù)操作的任務時非常明顯玻熙。一項對書法專家和新手在書寫過程中的眼動路徑研究發(fā)現(xiàn)否彩,專家在書寫時的注視點始終領先于筆尖的位置,這表明在熟練的技能操作中嗦随,視覺注意力的分配是高度策略性的列荔。

那么是否存在更好的方法或設備可以解決這些問題,成為 XR 設備完美的輸入方式枚尼?

02?手表贴浙、手環(huán)、戒指署恍,潛在的明星外設

未來最先可能接入 XR 系統(tǒng)的新外設是「手表/手環(huán)」類產品崎溃,業(yè)界各大廠商已經在此領域深耕多年,也展示過許多使用 demo锭汛。目前笨奠,技術方案主要分為兩大流派:一是以蘋果和 Double Point 為代表的 IMU 派,另一是以 Meta 為代表的 EMG派唤殴。手表的優(yōu)勢在于不僅可以用于手勢識別般婆,同時也具備日常生活中的實用功能,如健康監(jiān)測朵逝、消息提醒等蔚袍。

4-wa

△ Apple watch(左),META EMG 手環(huán)(右)

另一個被受矚目的形態(tài)是「戒指/指環(huán)」。戒指可以更精準細致地識別用戶手指末端的微手勢啤咽,使用方式可以更省力晋辆,也能有效避免誤觸。

5-US20230350503A1

△ US20230350503A1

相比蘋果目前的方案宇整,手表和戒指這兩類外設不用依賴攝像頭瓶佳。可以識別更多更細致的微手勢鳞青,從而減少疲勞霸饲,提高輸入效率和準確度。

但是在全天候的佩戴使用環(huán)境下臂拓,還是免不了會有誤觸的發(fā)生厚脉。比如在另一臺電腦上打字時可能不小心觸發(fā)手表的點擊功能,或者在吃水果時誤觸戒指胶惰,造成不必要的干擾傻工。此外,僅憑單一外設孵滞,還無法徹底解決文字輸入的效率問題中捆。

也有些人會期待更加激進的方式,比如通過腦機接口實現(xiàn)的意念輸入剃斧。這種輸入方式雖然能夠實現(xiàn)低疲勞和低延遲轨香,但這類設備能在多大程度上讀取我們的思想忽你,這點始終存疑幼东。

6-%E8%BF%88%E5%90%91%E7%9C%BC-%E8%84%91-%E8%AE%A1%E7%AE%97%E6%9C%BA%E6%8E%A5%E5%8F%A3

△ 邁向眼-腦-計算機接口:將凝視與刺激前的消極性相結合,以實現(xiàn) XR 中的目標選擇科雳,doi.org/10.1145/3613904.3641925

考慮到電池續(xù)航根蟹、重量、體積等綜合因素糟秘,目前還沒有出現(xiàn)一種能夠完美解決輸入問題的理想外設简逮。

現(xiàn)在讓我們回到第一性原理。

人機交互的核心是讓計算機快速準確的識別用戶意圖并提供反饋尿赚。

我們在操作設備時會面對兩個心理鴻溝:一個是執(zhí)行的鴻溝散庶,我們首先需要清楚如何操作;另一個是評估的鴻溝凌净,我們需要清楚操作的結果悲龟。

7-%E6%89%A7%E8%A1%8C%E5%92%8C%E8%AF%84%E4%BC%B0%E7%9A%84%E9%B8%BF%E6%B2%9F

△ 執(zhí)行和評估的鴻溝

要彌合這兩個鴻溝,關鍵在于建立雙向的理解和一致性冰寻。就像專業(yè)的騎手與他的馬能夠心意相通须教,能夠理解,甚至預測對方的每一個動作。

然而轻腺,我們普通人并不想深入了解計算機和系統(tǒng)的工作原理乐疆,也不愿意學習如何使用復雜的外設。所以壓力就給到計算機這邊贬养,它需要更準確的識別用戶意圖挤土,或者說更「智能」。

在缺乏用戶明確輸入指令的情況下误算,計算機只能嘗試通過「排除法」來猜測用戶的意圖耕挨。但由于信息不足,計算機往往難以做出正確的判斷尉桩,「誤觸」就這樣發(fā)生了筒占。

那么,如果給計算機提供更多的信息蜘犁,是否就能增強其理解能力翰苫,從而更準確地識別用戶意圖呢?

香農將信息定義為「不確定性的減少」这橙。在信息論中奏窑,信息熵表示系統(tǒng)的初始不確定性。通過提供更多的用戶數據屈扎,計算機能夠減少對用戶意圖的條件熵埃唯,增加互信息,從而更準確地識別用戶意圖鹰晨,提升系統(tǒng)的理解能力墨叛。更多的信息能夠顯著降低系統(tǒng)的不確定性,使得計算機對用戶行為的預測更加精確模蜡。

但這也要求計算機系統(tǒng)具備強大的數據處理能力和先進的算法漠趁,以應對復雜的信息。

03?人機交互離不開多模態(tài)交互方式

多模態(tài)交互(Multimodal Interaction)是指在人機交互過程中忍疾,同時使用多種感官和輸入方式進行交流和控制的技術闯传。這種交互方式模仿了人類在自然環(huán)境中的交流方式,因為人類在交流時會同時使用視覺卤妒、聽覺甥绿、觸覺、手勢等多種感官和行為则披。

Vision Pro 的眼手交互就是一個典型的多模態(tài)交互方式共缕。眼手交互起源于1981 MIT media lab 的一項多模態(tài)交互研究。Ken Pfeuffer 在他的博客里介紹了眼手交互的發(fā)展歷史收叶。

(參考鏈接:https://medium.com/@ken.pfeuffer/history-of-eyes-and-hands-for-computer-control-fd3a62b56aa1)

我們靈活的雙手除了用來 "pinch" 還可以傳達更多的信息骄呼,比如手語。在多種文化中,人們在交談時通常會伴隨豐富的肢體動作蜓萄,這不僅有助于消除語言交流中的歧義隅茎,也能增強系統(tǒng)對用戶意圖的理解。特別是在識別用戶情緒和壓力水平方面嫉沽,肢體語言提供了重要的線索辟犀。

8-La_Chimera

△ 《奇美拉 La Chimera》(2023)劇照

Yuhan Luo 等人的研究發(fā)現(xiàn),人們使用手勢表達情感時绸硕,手指指向方向和手勢強度與情感的情感和興奮水平有關堂竟。這表明手勢不僅是情感表達的工具,也是情感強度的指標玻佩。此外出嘹,他們的研究還指出,手勢的使用受到社會和文化背景的影響咬崔,這說明在設計多模態(tài)交互系統(tǒng)時税稼,需要考慮不同文化背景下用戶的手勢習慣。

(參考鏈接:https://dl.acm.org/doi/10.1145/3613904.3642255)

9-pa

△ 單手手勢的表達潛力:一種情緒可以通過不同的手指方向垮斯、手掌方向郎仆、動作和力量來表達不同的方式。

除了眼手兜蠕,在Vision OS中扰肌,用戶還可以結合視覺和聽覺模態(tài)進行交互。例如熊杨,在某些輸入框中曙旭,用戶可以通過注視選擇文本框,然后使用語音輸入文字猴凹,有效地結合了視覺的定位功能和語音的快捷輸入夷狰。

Ismo Rakkolainen 等人曾系統(tǒng)的總結了針對基于 XR 設備的多模態(tài)交互技術,并對基于人類感官的模態(tài)接口進行了分類郊霎。

(參考鏈接:https://www.mdpi.com/2414-4088/5/12/81)

10

恰巧 XR 設備的一大特色就是支持集成豐富的傳感器,且這些傳感器距離我們自身的五官很近爷绘。

增加了輸入源书劝,計算機能獲取的信息量就能增加許多,多個通道的聯(lián)合輸入就可以讓計算機做 "排除法" 的時候正確率更高土至。

Jaewook Lee 等人在 SIGCHI 2024 會議上發(fā)表的 GazePointAR 多模態(tài)交互技術利用眼睛注視购对、指向手勢和對話歷史記錄來消除語音查詢的歧義。用戶可以通過注視或指向來提問陶因。如下圖骡苞,當用戶詢問「這是什么?」時,GazePointAR 會自動將「這」替換為「帶有 Orion Pocachip Original 文字的包裝物品」解幽,然后將其發(fā)送到大型語言模型進行處理和響應贴见。處理后的結果會由文本轉語音引擎讀取,并以語音形式回答用戶的問題躲株。

(參考鏈接:https://dl.acm.org/doi/10.1145/3613904.3642230)

11-%E4%B8%8E_GazePointAR_%E4%BA%A4%E4%BA%92%E7%9A%84%E7%A4%BA%E4%BE%8B

△ 與 GazePointAR 交互的示例

蘋果也在其專利 US20230409122A1 《基于手勢控制的智能設備操作技術》中描述了一項技術片部,允許用戶通過特定的手勢和語音命令與智能設備進行交互。例如霜定,當用戶指向一個電話號碼并說出「呼叫這個號碼」档悠,如下圖,系統(tǒng)會識別手勢指向的對象和語音命令望浩,然后自動撥打電話辖所。也可以控制臺燈的開關,或者調節(jié)亮度磨德。

12
12-2

在完成相同任務時奴烙,如果用戶可以使用多模態(tài)輸入,控制會更加靈活剖张。每種模態(tài)都有其獨特的特性和優(yōu)勢切诀,Vijay Rajanna 等人在一項打字輸入研究中發(fā)現(xiàn),眼睛并不能像傳統(tǒng)的焦點導航器(如鼠標)那樣長時間穩(wěn)定地保持在一點上搔弄。長時間刻意的控制眼睛盯著一個地方會很快導致疲憊幅虑。所以眼動只能用來做焦點導航,而其他比如單擊顾犹、激活等操作則需要額外的控制方式倒庵。多模態(tài)可以在執(zhí)行任務時形成優(yōu)勢的互補。眼動和手勢的組合輸入時炫刷,就可以完全放松的將手放在腿上或自然下垂擎宝。

04?多模態(tài)交互,可靈活切換是關鍵

在實際使用時浑玛,多模態(tài)的靈活切換同樣重要绍申。Vision Pro目前提供的遠近場交互模式的切換也是個很好的例子,它允許用戶根據任務的需要和環(huán)境的變化顾彰,直觀的選擇合適的交互方式极阅。

Rokid 自研的 AR 空間操作系統(tǒng) YodaOS-Master 則支持 3 種焦點導航交互方式(手部追蹤近場交互、射線遠場交互和 Touchpad 光標間接交互)涨享。在不同的使用場景下筋搏,用戶可以根據需要靈活切換。比如在游戲中使用射線可以提供最快速度的靈活響應厕隧。而在使用 2D 應用辦公時奔脐,Touchpad 光標能提供更穩(wěn)定和精確的操作體驗俄周,也更符合我們在電腦上辦公的操作習慣。

然而髓迎,多模態(tài)交互有時也會增加用戶的認知負荷峦朗。例如,組織語言進行說話是一個非常消耗大腦資源的活動竖般,許多人在說話時不得不暫停手頭上的其他工作甚垦,無法一心多用。這可能是由于大腦用于說話和聆聽的部分也是用于解決問題的部分涣雕。

(參考鏈接:https://dl.acm.org/doi/fullHtml/10.1145/348941.348990)

這也可能是語音輸入遲遲沒有流行的原因之一艰亮。

13-AR_%E4%B8%AD_MMI_%E7%9A%84%E6%8B%9F%E8%AE%AE%E6%A1%86%E6%9E%B6

△ AR 中 MMI 的擬議框架

所以多模態(tài)交互的復雜度非常高。為了方便系統(tǒng)性的研究挣郭,韓國 CX Insight Team 的研究人員提出了一個在 AR 環(huán)境中的多模態(tài)交互框架迄埃,該框架考慮了人類信息處理的各個階段,以及輸入和輸出模態(tài)如何協(xié)同工作兑障。研究還強調了組合不同的交互模態(tài)可能對任務效率和用戶性能產生的影響侄非,并討論了如何在 AR 系統(tǒng)設計中實施這些理論。

(參考鏈接:https://dl.acm.org/doi/10.1145/3613905.3650874#d1e597)

以上的案例主要用到了視覺流译、聽覺和運動覺模態(tài)逞怨。但多模態(tài)交互并不僅限于此,XR 設備不僅能通過傳感器建立與我們自身的連接福澡,還可以建立與我們所處的環(huán)境之間的連接叠赦。

通過傳感器實時采集環(huán)境音、攝像頭等環(huán)境數據革砸。從而理解用戶當前所處的環(huán)境和用戶的需求除秀、行為和情感。從而更好的和用戶 "對齊"算利,提供更好的服務和反饋册踩。比如 Google IO 2024 上發(fā)布的 Astra,宣傳片中女主問 Astra 她的眼鏡放在哪了效拭,Astra 就通過回溯剛才攝像頭掃過的影像暂吉,告訴女主她的眼鏡放在桌角。

14-%E8%B0%B7%E6%AD%8CAI%EF%BC%9AProject_Astra_%E5%AE%A3%E4%BC%A0%E6%BC%94%E7%A4%BA

△ 谷歌AI:Project Astra 宣傳演示

在蘋果的專利 US20240005921A1《基于環(huán)境上下文的語音命令識別系統(tǒng)》也描述了這類使用場景:在智能家居設備中允耿,用戶的語音命令可能存在多種解釋借笙,比如家里可能有多個智能燈具,當用戶說「關燈」時较锡,系統(tǒng)是無法確定用戶要關哪個燈的。但如果系統(tǒng)可以獲取環(huán)境上下文信息盗痒,當用戶在臥室發(fā)出「關燈」命令蚂蕴,系統(tǒng)就能將模糊的指令識別為關閉臥室的燈低散。

05?如需必要,勿增實體

觸覺反饋則對于提高用戶操作時自信很重要骡楼,尤其是在執(zhí)行精細操作時熔号。但我們不想隨身攜帶一堆需要充電的外設。如果能隨手拿起身邊的物體臨時當作有形控制器(Tangible User Interfaces)就太好了鸟整。這類「萬物皆備于我」的概念被稱為機會型界面引镊。

機會型界面 (Oportunistic interface) 機會型是指主動發(fā)掘環(huán)境中的各種機會(比如物體、資源等)篮条,并將其臨時轉化為交互的媒介或方式弟头,提高系統(tǒng)對環(huán)境的響應性。

META 研究團隊曾提出 ATUI:自適應可觸用戶界面(Adaptive Tangible User Interfaces)的愿景:不需要專門設計的硬件,而是通過識別環(huán)境中的物體及其特征涉茧,將這些物體臨時轉化為輸入設備或控制器赴恨,從而為用戶提供觸覺反饋和物理操作感。比如我想旋轉 3D 模型伴栓,只需用手旋轉附近的杯子即可伦连。

15-ATUI_%E7%A4%BA%E4%BE%8B

△ ATUI 示例

Camille Dupré 等人也在 SIGCHI 2024 會議上展示了他們的 TriPad 技術,僅通過手部跟蹤將任意普通表面轉化為觸控板钳垮,其工作原理是通過 3 個指尖與表面接觸來創(chuàng)建平面惑淳。之后,用戶可以隨意使用這個表面進行觸摸輸入饺窿。

16

△ (1)所有手指都停留在目標表面上:在拇指歧焦、中指和小指定義的平面上出現(xiàn)一個灰色圓圈。 (2-3) 通過整只手進行快速點擊短荐,創(chuàng)建觸摸平面倚舀。 (4) 表面現(xiàn)在可以用于觸摸輸入。

這樣都是很好的嘗試忍宋。進一步想痕貌,我們也可以在空白的桌子上創(chuàng)建一個任意大小的虛擬鍵盤,雖然沒有鍵程糠排,但桌子的表面可以在打字時給手指敲擊時的反饋舵稠。

06?XR 設備的發(fā)展與挑戰(zhàn)

雖然目前我們在多模態(tài)交互領域的研究和應用仍然非常早期。但近年來 AI 技術的井噴入宦,讓多模態(tài)交互技術站在了一個充滿無限可能的新起點上哺徊。比如 AI 大模型的流式視頻流輸入這樣的「科幻電影技術」也在前些天由 openAI 和 Google 同時實現(xiàn)了。

AI 的進步極大地推動了對來自不同模態(tài)的復雜數據的理解和處理能力乾闰,為多模態(tài)交互系統(tǒng)的設計和實現(xiàn)提供了強有力的技術支撐落追。

所以眼手交互最多只是「版本答案」,在多模交互的路上不會止步于此涯肩。以目前 AI 進化的速度轿钠,甚至我們可能很快就能走到 Licklider 所暢想的那個未來:

邁向自然巢钓、共生的關系 我的夢想是在不久的將來,人腦和電腦能密切協(xié)作疗垛,進行人腦想象不到的思考症汹。
——李克萊德(J.C.R.Licklider),「人與電腦共生理論」(Man-Computer Symbiosis)贷腕,1960

然而背镇,在技術進步的另外一面,我們也不能忽視隱私和安全方面的挑戰(zhàn)泽裳。

多模態(tài)交互系統(tǒng)需要實時采集和分析大量用戶的個人數據瞒斩,包括語音、面部表情诡壁、眼動軌跡以及環(huán)境影像等敏感信息济瓢。

隨著計算機系統(tǒng)變得更加智能化,它們對用戶意圖的解讀能力也在不斷提高妹卿。然而旺矾,這種智能化也需要是可控的。如果系統(tǒng)過度解讀用戶意圖夺克,可能會引起用戶的不適或誤解箕宙,甚至導致信任危機,就像 HAL 9000 或 MOSS 的故事铺纽。因此柬帕,在設計多模態(tài)交互系統(tǒng)時,設計者也要充分考慮用戶的接受程度和舒適度狡门,避免系統(tǒng)對用戶行為的過度干預或控制陷寝。

總的來說,在 XR 設備上其馏,眼手交互不是最終答案凤跑,而是多模態(tài)混合交互的起點。

>>
Back to top btn
亚洲AV无码国产精品网址,久久亚洲AV成人出白浆无码国产,日韩AV美乳欧美,永久免费AV无码软件app下载