第一章 模式识别学科的科学意义与战略价值
第一节 什么是模式识别
模式识别是人工智能学科的主要分支之一,研究如何使机器(包括计算机)模拟人的感知功能,从环境感知数据中检测、识别和理解目标、行为、事件等模式。模式是感知数据(如图像、视频、语音、文本)中具有一定特点的目标、行为或事件,具有相似特点的模式组成类别。
上述对模式识别的定义是对文献中出现的多种定义的一个综合。过去不同的定义侧重模式识别的不同方面,如强调功能应用或技术手段,侧重模式描述、检测或分类、理解等。
从功能角度来说,模式识别是为了模拟人的感知能力,实现对环境的感知和理解。1973年出版的Pattern Classification and Scene Analysis一书的前言中就从机器感知的角度介绍模式识别,认为任何动物的感知能力都很强,但对如何用计算机复现动物感知性能了解不足,因此计算机试图解决像模式分类这样相对容易的问题。这里说明了模式识别与机器感知的关系,而且在该书后面说明了感知中场景描述(图像理解的一种形式)的含义,认为场景描述包括图像中单个部件和部件之间关系的信息。
从方法技术角度来说,模式识别强调如何用数学建模或计算机编程来实现。美籍华裔学者傅京孙[King Sun Fu,国际模式识别学会(IAPR)创始人]在1968年出版的Sequential Methods in Pattern Recognition and Machine Learning第一章中写到,模式识别问题是基于某种主观标准对一组目标分类或标记,被分到同一类的目标具有一些共同特性。后来,傅京孙在1982年出版的Applications of Pattern Recognition一书的第一章中指出,模式识别问题是指对过程或事件的分类和描述,过程或事件可以是物理上的物体或诸如精神状态的抽象的事件具有相似特点的过程或事件组成类别。这个定义更加全面,对模式识别的技术(分类、描述)和模式、类别都表达得非常明确。类似地,2000在IEEE Transactions on Pattern Analysis and Mechine Intelligence(IEEE T-PAMI)上发表的综述Statistical Pattern Recognition:A Review中给出定义:模式识别是关于机器如何观察环境、学习从背景区分有意义的模式、对模式类别做出深入合理决策的研究。这个定义包含了模式检测、分割和分类。
从上述定义可以看出,模式识别的研究内容包括模式(目标)检测、分割、分类、描述等。这是从一个模式识别系统流程的角度来说的。分类是模式识别的核心任务,为此提出了大量的模型和方法。相关的研究问题还包括特征提取与选择、概率密度估计、聚类分析(无监督分类)等。此外,根据不同的感知数据类型和应用场景,数据预处理(如去噪、恢复、增强、归一化等)也是值得重视的研究内容。目标检测、分割、特征提取等具体技术也往往依赖于数据类型和应用,如语音信号、图像、视频数据的处理和特征提取有很多不同的特点。
本书既包括对模式识别理论方法和应用技术的进展分析,还包括机器学习、计算机视觉、语音语言信息处理等方向的内容。这几个方向是与模式识别密切相关的。模式识别的早期研究内容就包括机器学习,模式识别系统设计*重要的任务就是分类器和特征表示、描述模型的自动学习,这些是机器学习的范畴。同时,机器学习面向的对象大多是模式识别任务。计算机视觉虽然形成了一个研究领域,但研究的内容或使用的理论方法大多与模式识别或机器学习相同。从感知的角度,计算机视觉面向视觉感知,是面向视觉信息(图像、视频)的模式识别。语音语言信息处理包括语音识别、自然语言处理和理解,是面向语言信息获取和理解的。语音识别中大量使用模式分类、匹配和机器学习方法。自然语言处理领域长期以来采用基于句法语义分析和统计语言模型的分析方法,近年来随着深度学习的发展,其方法开始与模式识别的方法趋同并相互影响,如计算机视觉中常用的变换器(transformer)即首先在语言翻译中使用。
第二节 模式识别学科的科学意义
模式识别与机器学习、知识推理、自然语言处理、智能机器人并列为人工智能学科的主要分支。但事实上,模式识别分支在人工智能学科中发挥了*核心、*普遍的作用。首先,模式识别技术或模块是所有智能机器或智能系统(包括智能信息处理、智能机器人、无人系统等)中必不可少的部分。智能机器要感知周边环境,从环境获取信息或知识,或与人进行交互,都要通过模式识别。其次,模式识别影响了人工智能其他分支领域的发展,并与其他分支渐趋融合。比如,机器学习领域的研究内容大部分与模式识别重叠,早期与模式识别一样主要关注分类问题,即使在20世纪80年代独自成为一个研究领域之后,其研究的问题仍然与模式识别类似。
在20世纪50~60年代的早期发展阶段,模式识别是作为人工智能的一个分支同步发展的。人工智能先驱之一马文 明斯基(Marvin Minsky)在1961年发表的论文Steps Toward Artificial Intelligence中将模式识别与搜索、学习、归纳等并列为人工智能的几个主要方向之一。从70年代开始,以傅京孙为代表的一些模式识别学者创办了国际模式识别联合大会(IJCPR)[后改称国际模式识别大会(ICPR)],成立了国际模式识别学会,与主要关注符号智能的人工智能学术界分开发展。*近十几年,随着深度学习(深度神经网络)成为模式识别和人工智能多个分支领域的主流方法,不仅模式识别的方法与其他分支渐趋统一,几个学术圈也渐趋融合,很多学者宣称自己的研究方向同时包括模式识别、机器学习、计算机视觉等。如何表示模式和知识、如何从数据中发现模式和学习知识,成为模式识别和整个人工智能学科的主要研究问题。数据和知识联合驱动的感知、学习、推理等成为人工智能不同分支共同关注的前沿研究方向。
随着模式识别技术的应用不断扩展,从简单场景(如印刷文档文字识别、室内正面人脸识别)扩展到复杂开放场景(自由手写文档识别、室外无配合人脸识别),现有方法和技术的不足也不断显现,因而不断提出新的研究问题,促进该领域的理论和方法不断向前发展。当前模式识别技术对识别对象(场景、目标、行为)的结构分析和语义理解、对开放环境未知目标和噪声干扰的鲁棒性、少量标注样本学习的泛化性、无遗忘的连续学习和自适应等明显不足。面对这些问题,学术界在生物启发(类脑)的模式识别与学习、可解释性模型和学习、开放环境鲁棒学习、数据和知识推理的结合等方面进行新的探索。这些问题也是人工智能领域的前沿基础问题。因此,模式识别的基础理论和方法研究也将推动整个人工智能领域的发展。
一个实际环境中的智能系统要完成感知、认知、决策、控制等多项任务。模式识别是执行感知任务的核心技术,同时与感知前面的信号(语音、图像等)处理、后面的认知与决策等任务紧密关联耦合。同时,模式识别的方法也在与认知、决策、控制的相互影响中向前发展,如通过与环境交互,在感知—认知—决策—控制的反馈环路中进行学习。因此,模式识别与信号处理、控制科学等相关学科的关系十分密切并相互影响。
第三节 模式识别学科的战略价值
作为智能机器和智能系统的核心部分,模式识别技术在众多国计民生领域具有十分广泛的应用需求。通过模式识别技术,计算机/机器可以从感知数据中检测和识别各种模式(物体、符号、行为、现象等),这些是人们关心的(想从数据中提取的)信息或知识。由于各种传感器(相机、摄像机、麦克风、雷达成像、手机等)大量使用,日常生活和很多应用场景中存在数量巨大的感知数据,对其的分析识别不可能靠人工完成(比如视频监控数据,人工观察不仅人力不够,而且容易因疲劳而导致漏看、出错等),因此,模式识别技术在各个应用领域可发挥关键作用代替人工完成艰巨的信息处理任务。下面是一些典型的应用场景。
(1)安全监控(身份识别、行为监控、交通监控等)。通过图像、视频中的人体检测、人脸识别、虹膜识别等,可以自动检测和识别场景(如公共区域、住宅小区等)中存在的人物,判定其身份,用于安全防卫、敏感和嫌疑人物侦察等。在城市交通场景,自动视频分析可帮助检测违规车辆、行人等,维护交通秩序。
(2)空间探测与环境资源监测(卫星/航空遥感图像)。通过遥感图像分析,可自动监测地理资源(土地、森林、海洋)和城市环境,及时发现地质灾害,也可用于军事用途(侦察地形、发现战车和舰船目标等)。
(3)无人系统环境感知。无人机、战车、无人驾驶汽车等通过计算机视觉感知环境,识别道路和地形、障碍目标和行人等,帮助机器进行决策和规划控制。
(4)机器人环境感知。机器人通过视觉和听觉感知环境与目标,通过触觉感知目标形状和硬度、材质以控制抓取动作,随着目标位姿变化而动态调整动作,支持决策规划。
(5)工业应用。工业生产中可通过计算机视觉自动监测生产流程,检查零部件和产品质量,自动分拣、检测污损和发现次品等。
(6)智能人机交互与对话。计算机通过视觉、听觉系统识别人的表情、手势、声音、符号、语言等,与人进行交流,保证人机交互的顺畅,提供咨询、娱乐、远程诊断等服务。
(7)人类健康。大量的医学影像数据和体测数据缺乏足够的医生来判读,通过计算机影像数据分析自动判断患者的健康状况、预测和诊断疾病,可有力支持普惠医疗。带有精确视触觉感知功能的医疗机器人可进行自动医疗检查和手术等。
(8)文档数字化。日常生活和档案、政务、教育等部门有大量历史书籍、报纸、档案、手稿、笔记、表单等,可用计算机自动识别各种文档中的文字内容,从而实现档案和票据的自动处理。
(9)网络搜索和信息过滤。从互联网上海量的多模态数据(文本、图像、视频、音频等)中发现有用信息是人工难以做到的,可以用模式识别技术对多模态数据进行内容分析,自动搜索和提取有用信息,过滤有害信息。
(10)舆情分析。用模式识别和机器学习技术对互联网大数据进行分析,可及时发现社会舆论动向、热点话题、社会事件、疫病传播情况等。
(11)物联网数据分析。农业、工业生产和社会管理中泛在的各种传感器带来大量数据需要及时分析处理,模式识别技术帮助自动分析传感数据,及时提取关键信息。
总之,模式识别技术在众多领域都有着广泛应用,各种应用又对现有技术不断提出新的、更高的要求,由此推动模式识别学科的理论技术不断向前发展。因此,模式识别学科在国家经济社会发展中具有十分重要的战略意义。
第二章 模式识别学科的发展历史与研究规律
第一节 模式识别学科的发展历史
模式识别学科的诞生是在数字计算机出现之后。从文献上看,pattern recognition这一术语正式出现在20世纪50年代。人工智能先驱之一Selfridge[1]在1955年的一次会议上从计算机科学的角度给出了模式识别的一个定义:Pattern recognition is the extraction of the significant features from a background of irrelevant detail(模式识别是从无关细节的背景中提取有意义的特征)。这是截至目前本书发现的模式识别术语的*早定义。其实更早些时候已经出现模式识别技术,如维基百科(Wikipedia)的“光学字符识别”(optical character recognition,OCR)条目显示,1914年以色列发明家伊曼纽尔 戈德堡(Emanuel Goldberg)开发了一台阅读字符并转化为电报码的机器,后来开发了一台名为统计机器(statistical machine)的机器,通过光学码识别搜索胶片档案,该机器于1931年获得美国专利。另外,History of Optical Character Recogniti
展开