人机交互——总结笔记
第一章 绪论
什么是人机交互(Human-Computer Interection)
是关于设计、评价和实现供人们使用的交互式计算机系统,并围绕相关的主要现象进行研究的学科。——ACM SIGCHI
狭义的讲,人机交互主要研究人与计算机之间的信息交换。
综合学科,与认知心理学、人机工程学(理论基础)、多媒体技术、虚拟现实技术(相互交叉渗透)等密切相关。
人机交互研究内容
人机交互界面的表示模型与设计方法(Model and Methodology)
交互界面好坏影响软件开发的成败,研究表示模型与设计方法是 HCI 研究的重要内容
可用性分析与评估(Usability and Evaluation)
关系到 HCI 是否能达到用户期待目标。主要涉及到支持可用性的设计原则和可用性的评估方法。
多通道技术(Multi-Modal)
多通道交互界面的表示模型、多通道交互界面的评估方法以及多通道信息融合。
认知与智能用户界面(Intelligent User Interface, IUI)
目标:自然方便、上下文感知、三维输入、语音识别、手写识别、自然语言理解。
群件(Groupware)
群件指为群组协同工作提供计算机支持的协作环境。与 HCI 相关的研究内容主要包括群件系统的体系结构、计算机支持交流与共享信息的方式、交流中的决策支持工具、应用程序共享以及同步实现方法等内容。
Web 设计(Web-Interection)
Web 界面模型结构、设计基本思想和原则、设计工具和技术、可用性分析和评估方法。
移动界面设计(Mobile and Ubicomp)
移动界面设计方法、可用性与评估原则、开发工具和实现技术。
HCI 发展历史
命令行界面交互阶段->图形用户界面交互阶段->自然和谐的人机交互阶段
命令行
第一代人机交互界面,操作员,被动反应,缺乏自然性
GUI
主要特点:桌面隐喻、WIMP、直接操纵、所见即所得
单一通道(手)、占用较多屏幕空间、难以表达支持非空间性的抽象信息交互。
Window,Icon,Menu,Pointing Device
自然和谐
多通道交互(并行、非精确)、情感计算(上下文理解)、虚拟现实、智能用户界面、自然语言理解。
第二章 感知和认知基础
人的感知
视觉
背景:人类从中为世界获取的信息约有 80%是通过视觉得到的,因此视觉显示是人机交互系统中应用的最多的人机界面
视觉感知可以分为两个阶段:受到外部刺激接收信息阶段和解释信息阶段。
视觉感知特点:一方面,眼睛和视觉系统的物理特性决定了人类无法看到某些事物;另一方面,视觉系统进行解释处理信息时可对不完全信息发挥一定的想象力。
大小、距离、深度、视敏度、视错觉、亮度、色彩(波长 400μm-700μm)、
阅读
过程:感知形状->编码为内部语言表示->解释语义
过程与交互标准:成年人阅读是通过字的特征加以识别。改变字的显示方式,会影响到阅读的速度和准确性。9 ~ 12 号的标准字体(英文)更易于识别,页面的宽度在 58 ~ 132mm 之间阅读效果最佳。在明亮的背景下显示灰暗的文字比在灰暗的背景下显示明亮的文字更能提高人的视敏度,增强文字的可读性。
听觉
能够听到的频率:16/20Hz~20kHz(高感 1000Hz~4000Hz,可辨识语音 260~5600Hz)
听觉系统就像视觉系统一样,利用以前的经验来解释输入。
输入划分:噪声和可以忽略的不重要声音、赋予意义的非语言声音、组成语言的有意义声音。
触觉
重要性:可以反馈多种信号,对于能力缺陷的人更加重要,有助于基于触觉的交互设备的设计,
不同:触觉的感知机理与视觉和听觉的最大不同在于它的非局部性(感受器遍布全身)。但不同部位对察觉的敏感度差异很大,如人的手指的触觉敏感度是前臂的触觉敏感度的 10 倍。
内部感觉
知觉的特性
选择性、整体性、理解性和恒常性。
选择性
(在某一瞬间,选择某一事物为知觉对象,而把其他事物作为知觉背景,这就是知觉选择性,与注意的选择性有关)。分化对象和背景的选择性是知觉最基本的特性,背景往往衬托着、弥漫着、扩展着,对象往往轮廓分明、结构完整。
整体性
(人不会把知觉的对象感知为个别的孤立部分,而总是把它感知为一个统一的整体,这种特性叫做知觉的整体性)当一个残缺不全的部分呈现到眼前时,人脑中的神经联系马上被激活,从而把知觉对象补充完整。
知觉的理解性
(理解性指人利用过去所获得的有关知识经验,对感知对象进行加工理解。)实质是旧经验与新刺激建立多维度、多层次的联系,以保证理解的全面和深刻。
知觉的恒常性
客观条件一定范围改变时,人的知觉映像相当程度上保持稳定性。
认知过程和交互式设计原则
概念模型及对概念模型的认知
分布式认知
第三章 交互设备
人机工程学大纲
从本身和系统本身的角度,研究人机关系 专门的一门课程
定义
(研究人和机器、环境的相互作用及其合理结合,使设计的机器和环境系统适合人的生理、心理等特征,达到在工作、生活中提高效率、安全、健康和舒适的目的。)
人机工程学可定义为:按照人的特性设计和改善人——机环境系统的科学。
人机工程学相关问题
- 控制装置和显示布局 在逻辑上分组布局,组织形式包括:功能的:相关功能放在一起;顺序的:按照执行的顺序放在一起;经常性:根据使用频率排序。
交互的物理环境
考虑工作环境:使用地点、使用人、使用方式(姿势)
健康问题
身体姿势(舒适的触及所有控制装置,可以看见所有的显示)、温度(高温低温环境下用户反应恶化,精神无法集中)、光线(能看见屏幕,舒适,不疲劳)、噪声(有害健康,使用户烦躁)、时间
颜色的使用问题
输入设备
文字输入设备
手写输入设备
从社会科学、认知科学的角度来看,手写输入更符合人的认知习惯,是一种自然高效的交互方式。
手写板是一种常见的支持手写输入的交互设备,分为电阻式、电磁式、电容式三类,除了压感级数,精度和手写面积也是手写板的通用评测指标
手写识别
手写识别经过多年的发展已经产业化,广泛应用在触屏手机、GPS 等。提供了一种输入选择方式。
优点:方便、直观:适合没有键盘的情况;缺点:速度慢
举例:中科院自动化所“汉王笔”
语音识别
作为另一种文字输入设备,代替键盘。很有前途(和机器对话交谈是人们的理想),存在问题:识别率问题、模糊性、不确定性、口音、周围噪声
应用场景:在键盘是不现实或不可能的地方使用:电话信息系统、辅助残疾人、双手不方便(军事、无重力)
举例:IBM/Via Voice 微软语音识别系统
图像输入设备
二维扫描仪 已经成为计算机不可缺少的图文输入工具之一,由光学系统和步进电机组成。性能指标包括:扫描速度、分辨率等。扫描速度决定了扫描仪的工作效率,分辨率决定了最高扫描精度。
数字摄像头
作为一种视频输入设备,被广泛应用在视频聊天、实时监控等方面。数字摄像头可以直接捕捉影响,然后通过计算机的串口、并口或者 USB 接口传送到计算机。解析度是数字摄像头比较重要的技术指标,又有照相解析度和视频解析度之分。
三维信息输入设备
在许多领域:如机器视觉、面形检测、实物仿形、自动加工、产品质量控制、生物医学等,物体的三维信息必不可少。
三维扫描仪
根据传感方式分类:接触式和非接触式
接触式的三维扫描仪采用探测头直接接触物体表面,痛殴探测头反馈回来的光电信号转化为物体表面形状的数字信息,以三维坐标测量机伟代表。优点:校稿准确性和可靠性。缺点:测量速度慢、费用高、探头易磨损、误差修正。
非接触式的三维扫描仪主要有三维激光扫描仪,照相式三维扫描仪等,分别是基于激光扫描测量和结构光测量等技术设计的。优点:扫描速度快,易于操作,不需要直接接触。
三维激光扫描仪
三维激光扫描仪通过高速激光扫描测量技术,获取被测对象表面的空间坐标数据。常采用 TOF(Time-of-Flight,飞行时间)测量发或者三角测量法进行深度数据获取
结构光三维扫描仪
这是一种面扫描技术,通过投影仪向被测物体投射光栅模版图像,如正弦条纹光栅图像,正弦光栅在物体表面发生调制变形,其周期与相位的变化反映了物体表面的三维信息。通过相机拍摄物体表面的正弦光栅图像,检测出相位变化值,再利用双目视觉法计算出三维数据。
虚拟现实和三维交互设备
动作(运动)捕捉设备
机械式:利用可伸缩机械安装于捕捉物体上,以取得各部分的运动量。优点:成本低廉。缺点:限制物体自由运动,由于机械设备尺寸重量等问题,限制了其应用范围。
电磁式:若干低频磁场感应器安装在捕捉物体上,根据感应器接收到的磁场,可以计算出接收器相对于发射器的位置和方向。易受电磁干扰影响捕捉数据的精度和稳定性,对于作业场地的要求也十分严格。
光学式:利用计算机视觉原理。利用两台摄像机摆设图像和参数确定一点的位置。摄像机以足够高的速率连续拍摄时,从图像序列中就可以取得该点的运动轨迹。利用这一点通过对特定光电的监视和跟踪来完成运动捕捉的任务。
体感输入设备
与光学式动作捕捉设备基本原理相似,体感输入设备牺牲了一定的捕捉精度,但可以更简易、快捷的实现动作捕捉,支持用户通过肢体动作控制计算机应用,如体感游戏。 举例:Leap 公司的 Leap Motion,微软公司 Kinect
指点输入设备
常用于完成定位,选择物体的交互任务。一维、二维、三维或更高维空间。
鼠标
机械鼠标:轮子滚动把 x-y 坐标传递给计算机。三按钮,进行选择或者点击。容易磨损、堵塞。
光电鼠标:通过感应红色光反射强度变动来获得 x-y 坐标。容易保持干净。需要粗糙纹理表面,不能放置在光滑表面。
脚鼠:
轨迹球:原理与内部结构与机械鼠标相似,不同点是轨迹球工作时球在上面,直接用手拨动。优点:占用空间小,不需要大幅度平动,节省空间,减少手腕疲劳,多用于笔记本电脑等小型便携机。
操纵杆/键盘触头
间接输入设备,占用空间小。绝对操纵杆:通过运动来操纵位置(游戏中常用,与飞机汽车等操纵杆相似)。等度操纵杆:通过感知压力来控制光标(IBM 笔记本的小红点)
触摸屏
工作方式:手指终端一个光线阵列。屏幕既是输入也是输出,不存在其他的硬件损坏。
优点:速度快、适合恶劣复杂环境、大众信息系统界面。缺点:手指的油污,很难精细选择,最佳倾斜角 15。
尖笔
精确定位,不使屏幕受油污污染,可以使用尖笔,一般 PDA 附带。
优点:精细操作、绘图。缺点:一会儿提起、一会儿放下、麻烦。
数字化画板
专业设备,用来画画代替鼠标,分辨率高,可以用手/尖笔/需要一定的空间
眼睛凝视
工作原理:带上眼镜/头盔,低能量激光摄入眼镜,然后从视网膜反射出去,随着眼睛角度改变,反射也发生改变。
优点:速度快,精度高,应用于军事和残障事业。缺点:精度越高价格越贵。可以做选择但是不能拖拽。
输出设备
显示器
显示器是计算机的重要输出设备,是人机对话的重要工具。它的主要功能是接收主机发出的信息,经过一系列的变换,最后以光的形式将文字和图形显示出来。
阴极射线管显示器
构成:由阴极、电平控制器(即控制极)、聚焦系统、加速系统、偏转系统和阳极荧光粉涂层组成,这六部分都在真空管内。其中,阴极、电平控制器(即控制极)、聚焦系统、加速系统等统称为电子枪。
工作原理:当显像管内部的电子枪阴极发出的电子束,经强度控制、聚焦和加速后变成细小的电子流,再经过偏转线圈的作用向正确目标偏离,穿越荫罩的小孔或栅栏,轰击到荧光屏上的荧光粉发出光线。彩色 CRT 光栅扫描显示器有三个电子枪,它的荧光屏上涂有三种荧光物质,分别能发红、绿、蓝三种颜色的光
液晶显示器
在充电条件下,液晶能改变分子排列,继而造成光线的扭曲或折射。
液晶显示器工作原理是通过能阻塞或传递光的液晶材料,传递来自周围的或内部光源的偏振光。以电流刺激液晶分子产生点、线、面配合背部灯管构成画面。
LCD 比 CRT 显示器具有更好的图像清晰度,画面稳定性和更低的功率消耗,但液晶材质粘滞性比较大,图像更新需要较长响应时间,因此不适合显示动态图象。
等离子显示器
等离子显示器诞生于二十世纪 60 年代,它采用等离子管作为发光材料,1 个等离子管负责一个像素的显示:等离子管内的氖氙混合气体在高压电极的刺激下产生紫外线,紫外线照射涂有三色荧光粉的玻璃板,荧光粉受激发出可见光 。
优点:重量较轻、完全无 X 射线辐射,而且屏幕亮度非常均匀,不存在明显的亮区和暗区;由于各个发光单元的结构完全相同,因此不会出现 CRT 显示器那样存在某些区域聚焦不良或因使用时间过长出现散焦的毛病。
缺点:是价格较高,由于显示屏上的玻璃较薄使屏幕较脆弱。
投影仪
投影仪,又称投影机,是一种可以将数字图像或视频投射到幕布上的设备。
根据投影仪的工作方式不同,主要分为 CRT 型、LCD 型及 DLP 型三种不同类型的投影仪,而其中 LCD 投影仪与 DLP 投影仪又是目前商用投影仪中的主流。
打印机
打印机是目前非常通用的一种输出设备,其结构可分为机械装置和控制电路两部分。
常见的有针式、喷墨、激光打印机三类。
打印分辨率、速度、幅面、最大打印能力等是衡量打印机性能的重要指标。
3D 打印机
3D 打印机又称三维打印机,它以数字模型文件为输入,运用特殊蜡材、粉末状金属或塑料等可粘合材料,通过打印一层层的粘合材料来制造三维的物体。
3D 打印机与传统打印机最大的区别在于它使用的“墨水”是实实在在的原材料,可用于打印的介质种类多样,从繁多的塑料到金属、陶瓷以及橡胶类物质。有些打印机还能结合不同介质,令打印出来的物体一头坚硬而另一头柔软。
分为喷墨式,熔积成型,激光烧结三种类型的 3D 打印机
一个桌面尺寸的三维打印机可以满足设计者或概念开发小组制造模型的需要。
语音交互设备
语音作为一种重要的交互手段,日益受到人们的重视。
基本的语音交互设备:耳机、麦克风、声卡
第四章 交互技术
人机交互输入模式
背景:由于输入设备是多种多样的,而且对一个应用程序而言,可以有多个输入设备,同一个设备又可能为多个任务服务,这就要求对输入过程的处理要有合理的模式。
分类:请求模式、采样模式、事件模式
重点概念:一个应用程序可以同时再几种输入模式下使用几个不同的输入设备来进行工作,提供各种不同的交互功能,使用户能方便、高效地完成工作。
请求模式
在请求模式下,输入设备的启动是在应用程序中设置的。应用程序执行过程中需要输入数据时,暂停程序的执行,直到从输入设备接受到请求的输入数据后,才继续执行程序。
一般是指在高级语言的应用程序执行时需要输入一个数据,可以在应用程序中设置一条输入命令。该命令初始化输入数倍并等待用户输入。直到用户输入了一个信息,控制返回给应用程序,再继续执行应用程序
图
采样模式
输入设备和应用程序独立地工作。输入设备连续不断地把信息输入进来,信息的输入和应用程序中的输入命令无关。应用程序在处理其它数据的同时,输入设备也在工作(加入缓冲,可以并行),新的输入数据替换以前的输入数据。当应用程序遇到取样命令时,读取当前保存的输入设备数据。
优点:这种模式对连续的信息流输入比较方便,也可同时处理多个输入设备的输入信息。
缺点:当应用程序的处理时间较长时,可能会失掉某些输入信息。
图
事件模式
输入设备和程序并行工作。输入设备把数据保存到一个输入队列,也称为事件队列,所有的输入数据都保存起来,不会遗失。应用程序随时可以检查这个事件队列,处理队列中的事件,或删除队列中的事件。
图
基本交互技术
定位
确定平面或空间的一个点的坐标,是交互中最基本的输入技术之一。
直接定位:用定位设备直接指定某个对象的位置,是一种精确定位方式。
间接定位:通过定位设备的运动控制屏幕上的映射光标进行定位,是一种非精确定位方式。其允许指定的点位于一个坐标范围内,一般用鼠标等指点设备配合光标来实现。
笔划
笔划输入用于输入一组顺序的坐标点。它相当于多次调用定位输入,输入的一组点常用于显示折线或作为曲线的控制点。
定值
定值(或数值)输入用于设置物体旋转角度、缩放比例因子等。(键盘输入、比例尺调整)
选择
单个元素选择:单个元素选择是在某个选择集中选出一个元素,通过注视、指点或接触一个对象,使对象成为后续行为的焦点,是操作对象时不可缺少的一部分。操作:键盘 Ctrl+A 全选、鼠标点击。
区域选择:区域选择是在选择集中选出一组元素或者选择一个区域,通过使用区域选择工具完成该交互操作。常用:选框工具、套索工具、快速选择工具、懒惰选择工具
选框工具:目前常用的选框工具有矩形选框工具和椭圆选框工具,凡是和选框工具选择区域相交的元素均会被选择。该方法交互简单,但是选择对象往往不够精确
套索工具:为了使得选择区域更加精确,套索工具所勾画的封闭区域范围内的所有元素均被选中,该方法需要用户进行精细选择才能得到较为精确的选择结果,交互量比较大。
快速选择工具:为了提高选择精度且减少交互量,目前软件系统提供快速选择工具,这些工具采用快速选择算法,通过选择和选择点颜色相近的区域作为选择元素。
懒惰选择工具:懒惰选择方法,可以依据选择对象的形状、位置等关系信息,对用户手指划过的区域对象进行智能选择,但是这种交互技术尚不成熟,目前尚未广泛应用。
字符串
键盘是目前输入字符串最常用的方式,现在用写字板输入字符也已经很流行。
语音输入也是字符串输入以及功能选择的一种输入方法,语音输入需要使用语音识别技术。
二维图形交互技术
图形用户界面又称为 WIMP 界面——是第二代人机界面,是基于图形方式的人机界面。
图形用户界面由窗口(windows)、图标(icons)、菜单(meum)、指点设备(pointing device)四位一体,形成桌面(desktop),输出可以为静态或动态的二维图形或图像。
图
几何约束
可以用于对图形的方向、对齐方式等进行规定和校准。
定位约束:网格吸附。方向约束:检测夹角。
引力场
引力场也可以看作是一种定位约束,通过在特定图素(如直线段)周围假想有一个区域,当光标中心落在这个区域内时,就自动地被直线上最近的一个点所代替,就好像一个质点进入了直线周围的引力场,被吸引到这条直线上去一样。
引力场的大小要适中,太小了不易进入引力区,太大了线和线的引力区相交,光标在进入引力区相交部分时可能会被吸引到不希望选的线段上去,增大误接的概率。
拖动
要把一个对象移动到一个新的位置时,如果我们不是简单地用光标指定新位置的一个点,而是当光标移动时拖动着被移动的对象,这样会使用户感到更直观,并可使对象放置的位置更恰当。
橡皮筋技术
被拖动对象的形状和位置随着光标位置的不同而变化。
不断地进行画图-擦除-画图的过程(从开始到(x,y)绘图,擦除,从开始到(x,y) 加偏移量绘图)。
操作柄技术
可以用来对图形对象进行缩放、旋转、错切等几何变换。先选择要处理的图形对象,该图形对象的周围会出现操作柄,移动或旋转操作柄就可以实现相应的变换。
三维图形交互技术
面临问题:
三维交互技术采用六自由度输入设备。所谓六自由度,指沿三维空间 X、Y、Z 轴平移和绕 X、Y、Z 轴旋转,而现在流行的用于桌面型图形界面的交互设备,如鼠标、轨迹球、触摸屏等只有两个自由度(沿平面 X、Y 轴平移)。
窗口、菜单、图符和传统的二维光标在三维交互环境中会破坏空间感,用户难以区分屏幕上光标选择到对象的深度值和其他显示对象的深度值,使交互过程非常不自然。
直接操纵
通过三维光标,用户可以选择并直接操作虚拟对象。三维光标可以是人手的三维模型,输入设备的位置和方向被映射为虚拟手的位置和方向。
三维光标必须有深度感,即必须考虑光标与观察者距离,离观察者近的时候较大,离观察者远的时候较小。
为保持三维用户界面的空间感,光标在遇到物体时不能进入到或穿过物体内部。
为了增加额外的深度线索,辅助三维对象的选择,可以采用半透明三维光标。
三维光标可以是人手的三维模型
三维 Widgets
三维交互界面中的一些小工具:三维空间中漂浮的菜单、用于拾取物体的手的三维图标、平移和旋转指示器等。
1992 年美国 Brown 大学计算机系提出三维 Widget 设计原则
三视图输入 用二维输入设备在一定程度上实现三维的输入。
自然交互技术
Bill Gates 提出自然用户界面(Nature User Interface)
多点触控技术
多点触控技术是指借助光学和材料学技术,构建能同时检测多个触点的触控平台,使得用户能够运用多个手指同时操作实现基于手势的交互,甚至可以让多个用户同时操作实现基于协同手势的交互。
多点触控技术由硬件和软件两部分组成。
多点触控软件技术:触点检测和定位、手指触点跟踪、触摸手势识别。
触点检测和定位
图像预处理过程包括:灰度变换、平滑去噪、去除背景、图像分割等。
手指触点分割,如背景减除法。即将当前帧图像与背景图像相减,若差分图像中某个像素的灰度值大于某个阈值,则判断该像素点属于运动目标区域,即触点,否则属于背景区域。
触点定位:1)对所有分割后的触点区域提取出其外轮廓,并对轮廓图进行筛选,把面积小于一定大小和外形不是凸包的触点轮廓去掉,保留真正的触点目标;2)基于触点轮廓计算手指触摸点的信息,如重心坐标等,完成触点定位。
手指触点跟踪
多点触控系统检测和定位出多个触点后,需要对每个触点进行跟踪,记录每个触点的轨迹信息,再做基于轨迹的动态手势识别,才能实现基于手势的自由交互。触点跟踪方法有 Meanshift 算法、Kalman 滤波、Kuhn-Munkres 算法及 CamShift 算法等。
触摸手势识别
多点触控交互桌面上使用的多为单手多指手势,或者双手对称手势等。单手多指手势和双手对称手势识别,是在触点检测与稳定跟踪的基础上,通过标记、分析触点轨迹,识别手势含义。
常用的手势识别方法采用隐马尔科夫模型(HMM,Hidden Markov Model)或神经网络的统计模式识别方法进行识别。基本思想是:提取手指触点特征 ,采用手势样本训练分类器,输出手势识别概率。
手势识别技术
手势分割
三类分割方法:一是基于直方图的分割,即阈值法;二是基于局部区域信息的分割;三是基于颜色等物理特征的分割方法。
特征提取和选择
常用的手势特征有:轮廓、边缘、图像矩、图像特征向量以及区域直方图特征等。
手势识别
模板匹配技术:它将待识别手势的特征参数与预先存储的模板特征参数进行匹配,通过测量两者之间的相似度来完成识别任务。
统计分析技术:通过统计样本特征向量来确定分类器的基于概率统计理论的分类方法。
神经网络技术:该技术具有自组织和自学习能力,具有分布性特点,能有效的抗噪声和处理不完整模式以及具有模式推广能力。
表情识别技术
从表情识别过程来看,表情识别可分为三部分:人脸图像的获取与预处理、表情特征提取和表情分类。
人脸面部表情识别特征主要方法:
灰度特征:从表情图像的灰度值上提取的,利用不同表情用不同灰度值来得到识别的依据。
运动特征:利用了不同表情情况下人脸的主要表情点的运动信息来进行识别。
频率特征:利用了表情图像在不同的频率分解下的差别进行识别,速度快是其显著特点。
语音交互技术
语音识别(Speech Recognition)是计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令的技术,其所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。 一个完整的语音识别系统大致可分为语音特征提取,声学模型与模式匹配,以及语言模型与语义理解三部分。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!