论文详情

具身在人工智能导师系统中隐身何处?

167 2  
关注“壹学者”微信 >>
第一作者认领本论文 邀请作者认领本论文

第一作者:李海英

作者简介:李海英,河北邯郸人,心理学博士,美国罗格斯大学教育研究院博士后;Arthur C.Graesser,美国人,美国孟菲斯大学心理系和人工智能研究所教授,牛津大学名誉教授;Janice Gobert,加拿大人,罗格斯大学教育研究院教授。

人大复印:《心理学》2017 年 08 期

原发期刊:《华南师范大学学报:社会科学版》2017 年第 20172 期 第 79-91 页

关键词: 具身认知/ 人工智能导师系统/ 人机互动/ 自动化导师/

摘要:根据具身认知理论在人工智能导师系统设计中的应用,以三个最新开发的人工智能系统为实例从不同角度描述具身在凝视导师、3D虚拟实境以及虚拟模拟科学实验室中的应用;阐述以具身认知理论为指导思想的人工智能导师系统的设计原理以及加入具身设计元素的人工智能学习或评估系统对提高学生学习成绩和参与度的积极影响;为中国人工智能技术在学习和测试方面的开发提供参考与借鉴。

[中图分类号]B84;B434

[文献标识码]A

[文章编号]1000-5455(2017)02-0079-13

具身认知(embodiment cognition)主要指感官运动经验(sensorimotor experience)以及感官运动系统在认知过程中的动态加工处理,因此具身认知并不局限于某种思想,它本身就是认知。[1]具体说,具身认知理论的支持者认为抽象思想依赖于身体经验(bodily experiences),思想和行为受控于物质和社会环境交互作用下的感知(perception)、行动(action)、情感(emotion)的身体和神经系统。[1,2]甚至有些具身认知研究者认为,所有的认知过程都是具身作用下的认知,包括抽象知识和思维、语言理解加工等,都基于感官运动的经验。[1,3,4]虽然这种观点存有争议[5],但是大量的行为(behavioral)和神经成像(neuroimaging)研究结果支持具身在认知过程中起重要作用的观点[6]。这些研究内容主要涉及感知和行动的具身、言语理解的具身、目标和因果的具身。[1]

具身认知常常作为设计人机交互(human-computer interaction,HCI)的指导理念,[7]并越来越多地用于人工智能导师系统(intelligent tutoring system,ITS)[8]的设计。例如,ITS界面设计以学生动手操作为主,学生点击按钮、拖拽答案或文字输入答案[9-11];以虚拟实境[12-15]甚至3D虚拟实境(virtual reality)[13,16-20]使学生有身临其境的感觉。这种亲自操作(doing),尤其是在虚拟环境下的操作,可以改变学生的思维和感知,进而使之融入身体图式(body schema),比在被动观察(seeing)条件下获得的知识更多。[7,13]具身认知在ITS中的应用可以简单分为两个方面:学生的具身识别和反馈,以及智能导师的具身表现。一方面,ITS智能导师可以通过学生言语表达、电脑键盘的敲击力量、眼动追踪等识别学生具身,[8]从而对学生具身进行加工、理解并给予相应的即时反馈。另一方面,有的ITS智能导师可以做出简单的具身动作,如手势、体态姿势以及面目表情等;[9,21]有的导师系统嵌入虚拟环境[12-15]或3D环境[16-20]中,给学生提供空间上的人与物体的感知,使他们联想自己在现实场景中操控场景参数、观测场景变化、甚至通过多次重复操作来解释所观察的现象。最终,基于感知和运动活动的交互虚拟场景以及具身理论的特征[22,23]在ITS中淋漓尽致地体现出来。不仅如此,深度学习也会在感知模拟、对模拟进行反馈、描述和解释所发生现象的过程中发生。[8]

Graesser和Jackson曾在十年前围绕具身认知(embodiment)和符号表征(symbolic representation)探讨具身认知在ITS自动化导师(AutoTutor)系统中的应用程度。[8]自动化导师是一个人机自然语言对话的ITS系统。自动化导师是由美国孟菲斯大学(University of Memphis)人工智能研究所(Institute for Intelligent Systems,IIS)开发,用以辅导及评估的人工智能导师系统。自2008年以来,自动化导师系统开发络绎不绝,学生群体从小学到大学,甚至还包括已工作的成年人。辅导和评估内容涉及各个学习领域:生物(GuruTutor[24]、Gaze Tutor和GuruTutor加强版[25]),医学(V-CAEST,Virtual Civilian Aeromedical Evacuation Sustainment Training[16,9]),成年人阅读(AutoTutor CSAL[9-11]),批判性思考[26,27]等。近期开发的自动化导师系统和其他ITS系统以具身认知理论为指导思想,在原来自然语言对话的基础上加入了基本体态,[9,21]甚至情感(AutoTutor-AS[28])、凝视聚焦(Gaze Tutor[25])、3D虚拟实境(3D virtual reality[16-19])、认知游戏(epistemic game[14,15])以及其他ITS环境下的虚拟科学探究(science inquiry)[12,13]实验室。

这些最新开发的ITS更进一步地实现了具身元素在设计中的应用并以实证研究证明嵌入具身元素可以提高学生学习绩效和参与度。本文的研究意义有以下三点。第一,具身认知理论在人工智能领域的应用能够为具身认知的研究拓宽思路,它不仅可用于人与人之间的互动(human-human interaction),还适用于人与机器的互动(human-computer interaction)。第二,本文为人工智能研究者在人机互动研究方面提供设计和理念上的创新思维,推动人机互动的发展。比如,在人工智能导师系统的开发中,增加自然语言会话、电脑导师(computer tutor/agent)手势、体态(body gesture)以及面目表情等情感(affect)交流会极大增加学习者的学习兴趣并提高学习效果。[8]第三,本文旨在通过对具身认知和人工智能的有效结合推动心理和计算机等交叉领域的研究,最终开发更多高效的、多学科的ITS学习和测试评估软件。

二、具身认知

具身认知的研究方法主要有行为研究和神经成像[6],研究内容主要涉及感知和行动、言语理解以及目标和因果[1]。下面以这两种研究方法为主线,简单介绍具身在这三个方面的体现。

行为研究发现感觉运动表象(sensorimotor representation)在认知活动方面主要表现为物体识别(object identification)和言语理解(language comprehension)。Gibson提出的环境赋值(affordance)可以囊括身体、物体、行动和感知的关系。[29]环境赋值指人在感知时依据自身的心理需要指导行动,同时身体决定感知,这里的身体包括身体形态、生理和以前所习得的行为。比如,勺子有用来吃饭的功能,但是孩子却常拿它来做游戏。由于不同的人需求不同,同一个物体的功能也会发生变化。再比如,视觉感知受身体的疲倦程度影响,对于同等距离,越疲倦则感觉距离越远。[30]Casasanto发现擅长使用左手和擅长使用右手的人思考行为动词时使用大脑的不同部位,对于抽象概念如“善良”(goodness)也有不同的思考,甚至通过改变使用左手或右手可以改变人们对于“好”和“坏”概念的认知。[31]Hauk、Johnsrude和Pulvermüller发现人们听到不同的行为动词,不同运动皮质区有不同的反应,[32]比如听到“pick”和“kick”,控制手和腿的运动皮质区分别做出反应。

言语理解不仅是解读按照语法规则排列的抽象符号,也是语言内容与行动、感知、情感的身体以及神经系统的交互过程。[1]在阅读时,如果配以物体与句子描述相符的图片展示给读者,读者辨别物体图片所花的反应时间会减少。[33]比如,读者识别“乌鸦喝水”中的乌鸦,配以正在喝水的乌鸦图片比配以正在睡觉的乌鸦图片所花的反应时间要短。另外,根据Glenberg和Kaschak提出的动作—句子相符效应(action-sentence compatibility effect),做出与句子描述相符合的体态动作能够使听话人更有效地理解句子意思。[23]例如,“能递给我一杯水吗?”说话者边说边指向水,然后再指向自己。这种适宜的体态与言语的配合可以让听话者更快速、准确地理解说话者的意图。这其实也反映了语言理解依赖信息的心理模拟(mental simulation)。另外,Havas等通过给实验者皱眉肌注射化妆品肉毒杆菌(cosmetic Botox)消除额头纹使实验者不能皱眉,无法展现怒气和悲伤。结果发现,实验者理解描述愤怒和悲伤的句子速度减慢,但是这对表达喜乐的句子没有影响。[34]具身认知理论在教育领域的应用体现在抽象概念的学习,比如词汇、句法、数学标记语言(mathematical notation)的学习都依赖具身感知来解读这些符号所代表的意思。[1]Kontra等通过比较亲自动手操作和旁观学习扭矩和角动量的两组实验者,发现亲自动手比仅仅视觉观察更能提高学习绩效。[35]

虽然目标和意图非常抽象,但是通过观测人们的行为可以推测他们的目标和意图。[1]比如,通过运动共振过程(motor resonance process)可以推测人们的目标和意图,[36,37]这是因为视觉感知行动可以激活运动系统的镜像神经元(mirror neurons),同时当人们做出相同的动作时也会激活他们的运动系统,从而激活镜像神经元对他们的动作目标进行编码,但是这个过程需要以有运动能力(motor competence)为前提。如Sommerville、Woodward和Needham发现,当婴孩有抓握能力后,若使其长时间观察戴手套的手伸向一个球直到习惯为止,那么当泰迪熊出现后,这些婴孩会被新的目标强烈吸引,而没有“手套手”经验的婴孩的注意力会平均放在球和泰迪熊上。[38]

神经成像的研究也为具身在概念性知识表象和语言处理中的作用提供了大量的证据。例如,通过MRI、fMRI测量发现,观察者看到实验操控图片(如“苹果”)比相关的非实验操控图片(如“梨”“草莓”“玉米”等)更能激活左腹侧前运动皮层(left ventral premotor cortex)和左后顶叶皮层(left posterior parietal),这说明对操控物体的识别可能依赖于大脑中储存的感觉运动属性(sensorimotor attributes)。[39]通过fMRI测量发现,当理解有关身体部位的行为词汇(action word)或句子时,相应的运动或浅运动皮层就会特别活跃。[32,40]例如,听话者听到“我挥舞着胳膊”会很大程度地激活前运动皮层与手臂相关的部位,而其他前运动皮层部位如腿、脸等就较弱。这从侧面反映了或许行为与语言系统的功能是相链接的。[41]

上述具身在认知中的作用为人工智能导师系统(ITS)提供了设计依据。目前,具身在ITS中的应用体现在以下两方面:(1)体现在动画导师(animated agent)的身体动作中,从“扬眉”“嘴角上扬”等简单的面目表情到可展现动画导师身体动作或引发学生身体动作心理联想的复杂的虚拟实境,使学生有身临其境的感觉;(2)体现在学生的具身,例如与电脑之间的互动,操控电脑界面的参数、完成指定的任务,或使用先进仪器探测学生具身,并传送给电脑导师,以便导师给予即时反馈。鉴于自动化导师系统是ITS中开发品种和数量最多的,我们就先介绍自动化导师系统的设计理念。

三、自动化导师系统

动漫具身会话自动化导师通过合成语音(synthesized speech)可以理解、思考、说话和行动。自动化导师可以与学生进行自然语言对话,并且具有面部表情、手势和体态姿势。自动化导师通过解析学习者的自然语言和情感探测实现针对每个学习者的动态反馈和帮助。自动化导师辅导过程包括导师提问和学习者回答、导师给提示以及纠正学生错误概念。自动化导师具身认知设计的目的是使学习者主动参与学习活动,达到深层学习的效果。

自动化导师模拟真人导师(human tutor)与学生的会话(discourse),具体包含自然语言所传递的语言信息(verbal message)、体态(gesture)、信号(signal)以及非语言交流(non-verbal communication)等。真人导师辅导过程包含大量具身特性和符号表征。自动化导师就是以符号表征和具身认知理论模式为核心设计的。符号表征也是反映身体行动、感知经验和认知的结合体。自动化导师通过与学生进行自然语言会话帮助学习者学习抽象、难学的科目。[42,43]自然语言会话一般以导师使用语音、学生使用语音或键盘文字输入来实现。[8,9,11]自动化导师从早期观察、模拟真人导师行为(如协作辅导对话[44]、语用[45]、分析对话推测学生知识结构[46])到迄今具有日臻完善的辅导策略,主要表现在以下三个方面:(1)以五步辅导框架(5-step tutoring frame)为基础的协作推理(collaborative reasoning);(2)期望—误区定制会话框架(expectation and misconception-tailored dialogue,EMT);(3)深层推理问题(deep reasoning questions)。

(一)五步辅导框架

自动化导师的五步辅导框架是在大量分析100个小时的真人导师辅导对话[44]的基础上构建起来的。这些导师有辅导本科生研究方法和统计知识的研究生,也有辅导初中生代数的高中生。由于导师培训并不能有效提高学生的学习成绩,[47]并且非专业导师采用简单但有效的辅导策略,[48]因此Graesser等对非专业导师辅导对话进行了分析,发现协作推理过程主要围绕五个环节[44]:

(1)导师提出一个难题或具有挑战性的问题;

(2)学生初次回答问题;

(3)导师针对答案质量给出简洁的即时反馈;

(4)导师、学生协作互动(collaborative interaction),通过多轮对话提高答案质量;

(5)导师检测学生是否理解问题的答案。

五步框架中,前三个环节被教师在课堂中普遍使用,教师问学生一个问题并给出积极或消极反馈,不同的是,自动化导师提出的问题相对具有挑战性,往往需要深层推理才能获得正确答案。对于一个具有挑战性的问题,自动化导师与学习者的对话可多达百余轮。因此,第四步在整个自动化导师辅导过程中起着举足轻重的作用。正是通过这一环节,师生在互动中共建问题的答案。第五步检测学生是否理解问题答案并不是通过简单的一般疑问句“懂了吗”,因为大部分学生即使没懂,也会回答“懂了”。[21]相反,掌握知识越牢靠的学生越经常表达“不懂”,[44,49]因为学生需要足够的知识才能清楚自己“懂”“不懂”。[50]因此好的导师不通过问学生是否懂了来检测学生学习情况,而是通过进一步的学习任务来评估学生是否学会了。为有效探查学生的理解度和提供即时帮助,自动化导师在人机对话过程中根据教学需要设计了五类言语行为(speech acts),也称为对话步骤(dialogue move)[9,21]:

(1)简短反馈(short feedback):积极(positive)反馈(如“很好!”“棒极了!”或使用肢体语言点头、微笑);消极(negative)反馈(如“不正确!”“错误!”或使用肢体语言摇头、皱眉);中性反馈仅表达听到了(如“嗯”“嗯”“啊”)。

(2)打气(pump):导师给学生打气,鼓励学生多说,如“还有其他要补充的吗?”“能再详细描述一下……吗?”

(3)提示(hint):导师直接根据相关知识概念提示学生多说或多做。提示可以是一般性的,如“为什么不……?”“……如何呢?”也可以是相对具体地引导学生找到正确答案。提示可以促进学生主动学习和将注意力集中在主要相关内容上。

(4)提醒(prompt):导师提出一个引导性问题(leading question),学生可以用一个单词或短语给出正确答案。有时候学生说得很少,因此,提醒可以使学生至少说些相关答案。

(5)断言(assertion):导师陈述一个事实或给出正确答案。

除此之外,导师对话言语行为还包括自我解释(self-explanation)、回答学生问题、更正学生错误知识、总结、微型讲座(mini-lecture)和针对学生走神或跑题的反馈等。

(二)期望—误区定制会话框架

期望—误区定制会话框架模拟真人导师在辅导过程中一贯遵循的系统性EMT对话结构。[51]实证研究结果显示,电脑导师使用以EMT为基础的自然语言对话可使学生获得与在真人导师条件下学习相抗衡的效果,效应量(effect size)在0.6—1.0之间。[24,52,53]EMT对话框架先由导师提出具有挑战性的问题,预计学生能给出正确答案(称作“expectation”),同时也预期学生会给出一些误解或错误知识(称作“misconception”)。当学生给出答案后,导师将他们的答案、期望答案和预计知识误区进行比较,根据比较结果给出即时的积极、消极或中性反馈(short feedback),使用言语、语音语调或面目表情。[44]即时反馈之后,导师通过打气(pump)、提示(hint)、提醒(prompt)等多轮对话引导学生给出预期的答案。如果学生仍旧不能给出正确答案,导师在最后给出正确答案(assertion)。在自动化导师系统中,这个“打气—提示—提醒—断言”的过程循环不断,帮助学生给出全面且完整的答案。导师系统可以设置多个预期答案,每个答案以单句为单位,错误知识也是如此。对话过程中,学生也会提出疑问,导师可以立即给出回答。在协作学习自动化导师系统中,有多个自动化人物。除自动化导师外,还有自动化学生,因此,自动化学生也可以回答问题[9,11];如果有多名学生使用协作学习导师系统,导师也可以针对问题的难易度将问题先抛给其他学生回答,如果无人回答正确,导师才最终给出正确答案[14]。

(三)深层推理问题

自动化导师通过一系列具有挑战性的、需要深层推理的问题来检验学习者是否已经掌握目标知识元素。所提问题往往需要一个段落的信息才能组成完整的回答。[11]自动化导师循序渐进、循循善诱,从学习者简单回答一个词或一、两句的答案引导他们至最终回答出全部答案。深层推理问题的答案要有详细的解释,从学生的解释中可以得知学生的深层知识学习效果。深层推理问题可以有效提高学生的学习成绩。[49,54]根据Graesser和Person的问题分类,可以把导师提问的问题分成三类:深层问题、中等程度问题、浅层问题。[55]其中深层问题包括因果关系的前提(causal antecedent,如“这个实验怎么失败的?”)、因果关系的结果(causal consequent,如“当先进的机器代替人工劳作,就业市场发生了什么变化?”)、目标导向(goal orientation,如“为什么认为这篇总结比另外一篇好?”)、资源启动(enablement,如“使用什么工具可以测量张力?”)、工具/程序(instrumental/procedural,如“你是如何操控实验从而得知水的密度不受容器大小的影响?”)以及期望/判断(expectational/judgment,如“你认为这篇文章的标题与内容相符吗?”)。

一般学生很少能独立给出深层问题的正确答案,往往要借助自动化导师的帮助,通过打气、提示、提醒等一系列过程才能给出所有的预期答案。因此,一个问题往往要经过师生多轮对话才能完成。在自动化导师系统的多轮对话过程中,仅仅使用自然语言对话是无法探测学生的非认知因素的,比如学生是否有厌倦情绪、是否积极参与学习过程、是否能够集中注意力而没有走神等。这些非认知因素在现实辅导过程中对导师来说是很重要的因素,[56]因此一些研究者开始开发能够探测学生情感的自动化系统,如Gaze Tutor[25]。另外,还有研究者将自动化导师系统与虚拟实境(VECAST[16,19]/Science Inquiry Assessment[17,18]/Microworld[12,13]或认知游戏[14,15,51,57]相结合,从而增加学生的参与度。下面就以Gaze Tutor、V-CAEST和Microworld为例,分别描述具有具身特性的自动化导师系统如何探测学生的情感以及其在3D虚拟真实场景中的体现。

四、ITS系统实例

自动化导师早期的设计集中在学生的认知方面;近期的设计增添了对学生在学习过程中情感的识别并给学生提供即时反馈。[25,58]D'Mello和他的合作者是自动化导师系统情感研究的先驱。他们开发了AutoTutor-AS(Affect Sensitive,也称作Emotion Sensitive),在自动化导师系统中增添了情感探测(affect detection),探测学生的体态、面目表情以及言语等,并对学生的情感状态进行分类。[28,59]他们发现自然语言,比如答案长度、连贯度等,可以在很大程度上预测学生的挫折感(frustration)、迷乱(

上一篇

下一篇

*非会员只能阅读30%的内容,您可以单篇购买,也可以订购全年电子版,或成为壹学者高级会员,畅用壹学者站内优质学术资源和服务。

近期0位学者阅读过本论文

回应区(0条)

确定

回应