第1章 人工智能的技术内涵与教育应用的实践演进
1.1 三代人工智能的技术内涵
人工智能的发展经历过三次大的浪潮,分别是始于 20世纪 50年代的计算智能时代、始于 20世纪 80年代的感知智能时代及进入 21世纪以来的认知智能时代[1],这三代技术的发展并非孤立发展、截然分开,计算智能为感知智能的发展提供基础,计算智能与感知智能发展到一定阶段后协同支撑认知智能的发展。
1956年,麦卡锡(John McCarthy)等学者提出人工智能(Artificial Intelligence, AI)的概念,意指要使机器像人那样认知、思考和学习。正如潘云鹤院士在全球人工智能高峰论坛上所讲 [2],六十余年来,机器定理证明、机器翻译、模式识别、专家系统、神经网络和机器人等领域迅速发展,积累的技术基础支撑起了模拟的医生、模拟的翻译者、模拟的对弈者,有的技术还能模拟人或生物的各种灵巧动作。在近十年中,随着互联网的普及、巨量数据的形成及人类对智能化需求的多样性变化,“通过机器的学习、大规模数据库、复杂的传感器和巧妙的算法,来完成具有挑战性的任务”成为人工智能的昀新定义,人工智能的应用者从精英小众群体走向普罗大众,潘云鹤院士把此称为人工智能 2.0时代的到来[3],也有学者称其为“人工智能 +”时代 [4]。
1.1.1 计算智能
计算智能在于迅速读取、处理与分析结构化或半结构化的数据,目前计算机的计算智能已经较为成熟并且在一些任务上超过了人类的能力。计算智能是受到人类智慧的启发而设计出来的一类算法的总称,主要用于解决在科学研究和工程实践中碰到的异常复杂的计算问题,这些问题复杂度高、计算耗时长、精度要求高,如仿真计算、模型求解等都需要依靠计算智能来完成。
随着数据规模、机器算力和算法复杂度的不断增长,计算智能在很多领域得到了广泛的应用,如机器翻译、人机对话、无人驾驶等。但是,在环境感知、高级认知和智能决策方面,以数据驱动的计算智能距离人类水平还非常远。
1.1.2 感知智能
感知智能主要体现为借助语音识别、图像识别、手势识别等技术,对现实世界的信息进行采集与辨别。谷歌公司的 Siri助手、国内科大讯飞公司的语音测评系统等都已经在语音识别上表现出强大的优势。由牛津大学人工智能实验室、谷歌 DeepMind和加拿大高等研究院(Canadian Institute For Advanced Research, CIFAR)于 2016年 11月联合发表的论文显示,使用了人工智能技术的唇读系统 LipNet能将视频中人物的嘴巴活动与台词匹配,准确率高达 95.2%,而人类可以达到的唇语解读准确率一般在 20%,昀高值仅有 57.3%[5]。
1.1.3 认知智能
认知智能是在感知智能的基础上向前迈进一步,即不仅仅是感知与判断语音、图像及手势,而且具备深度学习的能力,能读懂语义、图像及手势的内在含义,能判断出发言者的观点、遣词造句的习惯、情感态度,具备判断与学习的能力。众所周知的 AlphaGo战胜围棋冠军柯洁的案例是认知智能的典型体现,具备了认知智能的计算机能判断并学习包括柯洁在内的众多围棋高手的下棋策略,能在系统内部不断自我博弈,基于此大幅提升自身下棋水平,其认知与学习能力是战胜人类的关键。
近年来,以知识图谱为核心的知识工程领域发展迅速,知识图谱中一般包含实体、概念、属性、关系等信息,认知智能可以在知识图谱的基础之上,帮助机器进行理解、做出解释。
1.2 人工智能教育应用实践的演进
1.2.1 智能教学系统与教学代理
人工智能应用于教育教学是伴随计算智能、感知智能与认知智能这三类智能技术的发展而渐次应用于各类教学系统。传统的智能教学系统(Intelligent Tutoring System,ITS)和智能教学代理(Intelligent Pedagogical Agent,IPA)主要应用计算智能技术,根据预先建构好的知识模型、教师模型、学生模型在学习者学习过程中判断学习者碰到的问题,及时给予提醒或反馈。一定程度上而言,导师(Tutor)或代理(Agent)都体现为一种智能陪伴(Intelligent Companions),但智能化程度较低。在 ITS与 IPA中,导师或代理所能感知或捕捉到的信息、数据主要表现为三个方面:一是知识点的类型、难度及与其他知识之间关系 —知识模型(Knowledge Model);二是学习者业已经历过的学习过程和表现出的学习风格 —学生模型(Student Model)之间关系;三是在教师模型中预先设定的教学策略 —教学模型(Pedagogy Model)。显然,这三类信息或数据中仅有学习者的学习经历是一个动态变化的数据库,除此之外的知识模型、学习者学习风格、教学策略等都预先存储于系统,所以 ITS和 IPA对学习者特征、知识特性等的理解力与判断力都严重不足。正因为如此,尽管传统意义的智能教学系统和智能教学代理已经显现出智能化特征,但此类教学系统普遍较为僵化,这两类系统的应用普及程度一直不高。
1.2.2 人工智能 2.0时代智能教学系统的升级
北京大学贾积有教授所做研究显示,智能代理技术和自然语言处理是 2010年之前三年来人工智能教育应用中被关注的两个问题 [6]。但从 2010年至今,人工智能的发展取得显著成就,李德毅院士称此为“人工智能在奔跑” [7],同时人工智能在教育中的应用更趋多样化。美国白宫发表的报告《为未来的人工智能做准备》指出,在图像识别领域, 2011年人工智能技术的错误率高达 26%,但到了2015年,人工智能技术的错误率仅有 3.5%,已低于人类 5%的错误率。也就是说,如果交由两个个体对图像识别,根据错误率已经无法区分这两个个体是人还是人工智能体。更为可喜的是,这种图像识别能力已经应用于教学中。如手机应用“学霸君”APP可以把学生用手机拍下的难题迅速上传到云端并形成清晰的题目文本,然后这个软件根据识别出的文本开展网络搜索并迅即反馈出这道题的答案及解题思路。图像识别技术的发展是人工智能技术发展的一个缩影,其他如语音识别、语义识别、表情识别、眼部跟踪等技术的发展近年来同样突飞猛进。所以,当人工智能从狭义的计算智能向感知智能、认知智能等强人工智能迅速转型之后,人工智能的教育应用变得丰富并走进普通大众。英国每日邮报 2016年 5月 10日曾报道美国佐治亚理工学院的机器人助教代替人类助教与学生在线沟通交流竟无学生发现 [8],这说明了人工智能教育应用的潜力。虽然当前人工智能对教育的影响远低于人类对人工智能的功能预期,但业已应用的一些人工智能技术的确深刻影响了学习者的学习体验。
表1.1是近年来人工智能教育应用的部分美国案例。此外英国的 EZ Education公司开发的 DoodleMaths[9]影响也较大,该款应用主要是测试小学生的数学学习情况,印度、芬兰等国开发成功为数不少的基于人工智能技术的教育应用系统。科大讯飞公司在人工智能方面有较为强大的技术储备,该公司开发的畅言智能语音(双语)教学系统是针对中小学英语、语文教学需求,利用智能语音技术开发的新型智能教学工具 [10]。
表1.1 美国人工智能教育应用的部分案例梳理
综合以上文献、技术分析及对实践的审视,可以看出,近十年来人工智能的教育应用一直蓬勃发展,研究主题因人工智能技术的发展发生着显著变迁。研究领域不再局限于智能教学系统的模型分析、智能教学代理和游戏教学,人工智能更加关注学习过程数据的收集、处理与应用。智能识别、自然语言理解、学习分析、虚拟现实、教育机器人等五类人工智能技术大量引入教学系统,传统数字化教学系统、一系列的在线学习平台及 MOOC(Massive Open Online Course)平台等不仅完成学习资源呈现、作业批改与答疑、学习社区构建、支持交互协作等功能,这些系统或平台在应用 AI之后能够对知识与内容的表征形式实行智能化改造,能够即时捕捉与感知、分析学习者的学习状态。
人工智能的迅速发展将深刻改变人类社会生活、改变世界。人工智能发展进入新阶段。经过六十多年的演进,特别是在移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术以及经济社会发展强烈需求的共同驱动下,人工智能加速发展,呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征。大数据驱动知识学习、跨媒体协同处理、人机协同增强智能、群体集成智能、自主智能系统成为人工智能的发展重点,受脑科学研究成果启发的类脑智能蓄势待发,芯片化硬件化平台化趋势更加明显,人工智能发展进入新阶段。当前,新一代人工智能相关学科发展、理论建模、技术创新、软硬件升级等整体推进,正在引发链式突破,推动经济社会各领域从数字化、网络化向智能化加速跃升。
第2章 人工智能语境下的多模态学习分析
2.1 多模态数据的层次及多模态学习分析的概念
对学习者学习过程数据的收集与分析是智能教学系统(ITS)中的关键环节。伴随人工智能技术的飞速发展, ITS所收集数据的类型日益广泛,“SCHOLAR”[11]这样具备里程碑意义的智能辅导系统于 1970年诞生时仅对学习者做题的正确率给予收集分析,但现在的 ITS不仅关注学习者在网页上的停留时间以及做测试题的正确率等传统意义上的日志数据,还包括学习者学习过程中学习路径、情绪状况、对学习内容的关注焦点、身体的移动轨迹等数据。其中,学习情绪的跟踪主要应用面部表情识别技术,对学习内容的关注焦点主要应用眼动跟踪技术,对身体移动轨迹的跟踪主要基于运动传感技术。
所以,在人工智能语境下做学习分析是基于对学习者全方位数据的收集,学习分析中的数据范围大幅度增加。其实不仅是在教学领域要分析的数据类型日趋多样化,在医疗、体育、军事等领域所需分析的数据类型同样非常丰富,从 1996年开始,国际计算机学会(Association for Computing Machinery,ACM)就召开了多模态交互国际会议(International Conference on Multimodal Interaction,ICMI),旨在探讨如何综合分析音频、视频、文本、图片等多种数据源。到 2012年,第14届 ICMI会议上设立了多模态学习分析(Multimodal Learning Analysis,MLA)工作组,专题研究如何综合分析多模态的学习数据。
2.1.1 人机交互视角下多模态数据及多模态交互的发展历程
之所以被称为多模态交互或多模态分析,首先源于计算机可以捕捉收集数据的多模态化。人机交互的输入输出中,文本是昀基本的数据类型,并且长期以来是人机交互的主要形式。当人机交互界面从文本交互界面走向图形用户界面(Graphic User Interface,GUI)之后,鼠标移动被感知和捕捉,被转化为可被计算机执行的指令。伴随人工智能技术的成熟,基于自然语言处理(Natural LanguageProcessing,NLP)的人机交互被大家熟知和应用,同时一些电子游戏或虚拟现实
展开