第五章 多模態(tài)交互-聲音圖標、告警、語音感知、手勢交互
聲音圖標
圖標也有與其對應的聲音圖標,各類預警、告警聲音就是典型的例子。這種代表不同含義的聲音分為兩種,合成音和自然音。
合成音:代表的含義相對抽象,其意義是后天賦予的,是通過學習產(chǎn)生的。如蘋果電話鈴聲,在汽車設計上,也越來越注重這種聲音設計,如開車門聲、車載系統(tǒng)開啟聲音等。還可以賦予特定的聲音特定的含義,不過這個含義扔需要通過后天的學習來獲得。
自然音:來自自然界,不需要特別學習就能夠識別,如雨滴,在日常生活中,這種聲音為我們構成了對周邊環(huán)境的認知。
告警
告警的設計主要可分為視覺、聽覺和觸覺三部分。最常用的就是視覺和聽覺告警。
一個告警一般會含有四個部分:信號詞、危害性、性質(zhì)說明和后果說明。
告警的設計需要包含四個要素:被注意到、被讀到、讓人明白和意義明確。這四要素對于具有告警意義的說明書和產(chǎn)品危害告警尤其重要。
被注意到(讓人的選擇性注意力能關注到,聽覺告警比視覺告警更有效)
被讀到(告警的文字、圖標必須能夠讓人清晰的識別,聲音也要更凸顯)
讓人明白(所用的語言是大眾常用的,可以接受的和看的明白的語言)
意義明確(語言的表述方式對用戶的感覺是不一樣的,如規(guī)勸語氣和命令語氣)
語音感知
感知語音學是研究語言感知的學科,語音由說話人說出,成為言語波,通過空氣傳到聽話人耳中,經(jīng)過聽覺機制、神經(jīng)系統(tǒng)理解語音含義。廣義的說,上述全過程都是言語的感知過程。
語音識別技術的過程主要采用了3種技術:
自動語音識別(ASR,automatic speech recognition)
自然語音處理(NLP,natural language processing)
語音合成(SS,speech synthesis)
語音識別技術的目的是讓機器能夠聽懂人類的語音,是汽車語音交互的一個重要組成部分。
人類在語音感知的過程中,和文字語言一樣,同時采取由下至上的方法(識別文字和語音的元素)和由上至下的模式(通過應用場景和上下文來“猜測”可能的文字或語音),在自然語言處理方面,由上至下的模式對語言的理解是很重要的一環(huán)。
除了語言、語音本身傳達的信息之外,其他的因素對語言的交流起很大作用:
口腔的運動(唇語)
非語言的暗示(講話時的手勢、身體姿勢及面部表情等)
歧義性(交流時的困惑和不解)
對交流的內(nèi)容有共同的背景知識
手勢交互
手勢交互是指用戶直接使用手部動作與機器進行交互,一般需要手勢識別、運動跟蹤、體勢識別、臉部表情識別等計算機技術的支持。
手勢指僅用手部完成的操作。包括手勢在內(nèi)的人體肢體運動是一種源自人與人之間的自然互動的非語言溝通方式。
人的肢體語言分為兩類:先天姿勢和后天姿勢。
手勢設計的挑戰(zhàn)
在手勢設計過程中,最大的挑戰(zhàn)是如何使用戶快速建立手勢-功能連接,并盡可能降低用戶的記憶負荷。因此,手勢交互要被廣泛應用的前提條件可能是將手勢語言標準化及找到自然的手勢語言以方便記憶。
用戶的經(jīng)驗(包括對物理規(guī)律的感知、已有人機界面模式的使用經(jīng)驗)、社會文化習俗、反饋方式等,均會影響個體的動作使用與習得。
手勢操作的反饋
肢體動作稍縱即逝,不留下任何痕跡,因此,需要對用戶提供必要的反饋,告知其肢體輸入是否已正確輸入及識別功能。目前這類反饋主要來自視、聽通道,尤其是視覺通道。對駕駛員而言,視覺超負荷時最大的問題,引入手勢交互是希望能夠減少駕駛員的視覺負荷,因此,如果將手勢交互引入車內(nèi)交互,反饋設計是很大的挑戰(zhàn)。
容易出現(xiàn)的問題
體感交互的可靠性是另一個問題,不同于傳統(tǒng)的交互方式,在體感交互中用戶可能會在無意間做出某個動作,卻可能觸發(fā)某個并非期待中的功能。這將導致用戶無法理解系統(tǒng)的當前狀態(tài)或操作與結果之間的關聯(lián),使用戶對系統(tǒng)的控制感下降或喪失。