第1章绪论
1.1研究背景
随着网络和信息技术的发展,数据采集能力不断增强,如何从获取的大量数据中提取有价值的信息和知识已成为当前所面临的一个重要问题。分类作为一种重要的数据处理手段,旨在根据已知数据建立分类模型,用于分析预测未知数据的类别标签[1,2]。事实上,许多与决策有关的现实应用可以抽象为数据分类问题,如战场目标识别[3,4]、医学疾病诊断[5,6]和网络安全检测[7]等。在这些分类问题中,对未知数据分类准确与否(即精确性)是衡量所构建的分类模型好坏的重要指标之一。近年来,人们逐渐认识到可以理解的分类模型能够辅助决策者确定影响分类结果的关键因素[8,9],这就使得分类结果的合理解释(即可解释性)成为当前智能决策领域重点关注的研究内容之一。对于普通用户而言,诸如深度神经网络、朴素贝叶斯等分类模型如同黑盒一般,给它一个输入,其反馈一个决策结果,用户无法分析其背后的决策依据以及所做出的决策是否可靠,这种不可理解的结果可能会给一些实际应用(尤其是安全敏感任务)带来无法预知的风险[10]。例如,受电子对抗等敌方干扰因素的影响,自动目标识别系统中可能会不定时地产生一些虚假报告,因而决策者难以根据不可理解的识别结果采取有效行动。因此,对可解释分类方法的研究具有重要的理论意义与实际应用价值。
基于规则的分类方法是通过从数据特征中提取规则来预测未知样本的类别,所产生的规则库中的每条规则都是一个精炼的知识模块,因而具有较好的可解释性[1]。除此之外,规则分类方法的性能可以随相关领域专家知识的引入而增强,因而被广泛应用于知识存储和推理决策[11,12]。基于关联规则的分类(简称关联规则分类)是通过将数据分类与关联规则挖掘理论相结合所发展出来的一种新型的基于规则的分类方法体系[13]。该思想自提出以来便受到广泛的关注,许多学者从基于其规则结构、规则挖掘算法等不同角度发展出了一系列关联规则分类方法,并已被应用于多种实际问题中[14-20]。作为一种先进的基于规则的分类思想,关联规则分类的优势在于它能够利用关联规则挖掘的全局性来提取其他基于规则的分类方法中所遗漏的一些重要规则[21,22],从而可以取得更好的分类效果,这使得关联规则分类成为近年来数据挖掘与机器学习领域内的一个重要研究方向[23-26]。
由于外界环境干扰、传感器测量误差和预处理方法选择等因素的影响,现实应用中所获得的数据通常具有很大的不确定性,因而不确定信息的表示和处理一直以来都是数据分类问题中的研究重点[27-29]。对于复杂的数据分类问题,不确定性可能体现在分类边界不明确、数据类别不精确以及由此导致的单分类器结果不可靠等多个方面。例如,在对空中目标的类型进行识别过程中,某个分类结果给出“该目标类型为战斗机或轰炸机”,则这条信息就是不精确的。然而,现有基于规则的分类方法体系还不能很好地处理数据中存在的多种不确定性。为了开展不确定数据分类的研究,需要借助一套完善的可以对不确定信息进行建模和推理的理论框架。作为传统概率理论的拓展,由Dempster[30]和Shafer[31]提出的置信函数理论将传统概率理论中由单元素构成的辨识框架拓展到了包含单元素及其集合的幂集,并在该幂集下定义了证据的表示方式、证据间的融合以及相关运算。该理论不仅与随机集[32]、模糊集[33]、不精确概率[34]等其他不确定信息处理理论有着密切的联系,而且已经在多种实际应用中得到了检验[35-39]。因此,针对复杂不确定数据分类问题,探讨如何在置信函数理论框架下开展基于规则的分类方法研究将是一项十分有意义的工作。
综上所述,在诸如战场目标识别等复杂数据分类应用中,通常存在着如下两个方面的关键问题:一方面,从用户需求角度来看,不仅要求分类结果是精确的,而且也要求该结果具有一定的可解释性;另一方面,从感知环境角度来看,现实应用中所获取的信息通常具有很大的不确定性。因此,十分有必要开展基于置信函数理论的规则分类方法研究,以更好地表征和处理数据中的多种复杂不确定性,并获得可解释的分类结果。
1.2置信函数理论
置信函数理论(theory of belief functions)是以置信函数作为主要量化模型的数学理论的统称,起源于1967年的Dempster模型[30]。随后Shafer[31]将该模型推广并形成了一个比较完整的理论体系,因此又称为Dempster-Shafer理论。
同时,由于该理论是基于证据(evidence)这一概念来对所获取的信息进行描述,因此也常常被称为证据理论。在四十余年间经过Dubois等[40]、Yager[41]、Smets等[42-44]、Denoeux[45]的完善,置信函数理论逐渐发展成为一套应用广泛的面向不确定信息处理的理论框架。
1.2.1证据的表示
在应用置信函数理论进行推理之前,首先需要将所获取的信息(通常称为证据)在置信框架下进行表示。一般而言,证据的表示基于以下三种基本的函数:mass函数、置信函数和似真函数。其中,mass函数提供了一种*基本和直观的表达置信的方式,而置信函数和似真函数则通常用来表达置信的不确定区间。下面将介绍这三种基本函数的定义、作用以及相互之间的关系。
1.mass函数
在置信函数理论中,定义了元素数目有限的互斥且完备集合,称为所研究问题的辨识框架(frame of discernment)[31]。该辨识框架包含了对于该问题目前所能认识到的所有结果,那么所关心的任一个命题都对应于Ω的一个子集。Ω的所有子集构成的集合称为Ω的幂集,表示为2Ω。辨识框架是基于置信函数理论进行推理的基础,每个基本函数都建立在辨识框架的基础上。
定义1.1(mass函数[31])假设Ω为所研究问题的辨识框架,如有集合映射函数m:2Ω→[0,1]满足下列条件:,不可能事件的置信度为,2Ω中全部元素的置信度之和为1(1.1)则称m为辨识框架Ω上的mass函数,也称为基本置信指派(basic belief assign ment)。
对任意子集A.Ω,如果m(A)>0,则称A为焦元(focal element);m(A)称为A的mass值或基本置信指派,表示该证据支持命题A本身发生(即真实结果ω∈A)的程度。需要注意的是,这里m(A)只代表分配给A本身的置信值,并没有包含分配给A的真子集B.A的置信值。分配给整个辨识框架Ω的置信值,即m(Ω),称为全局不确定度。在定义1.1中,空集被排除在焦元之外,这对应于Shafer的封闭模型(close-world assumption);与之相对应的是Smets的开放模型(open-world assumption),该模型认为辨识框架是不完备的,用表征真实结果位于辨识框架之外的置信值。本书中所采用的是目前应用更广泛的封闭模型,即认为辨识框架是完备的。
定义1.1的mass函数有一些特例,这些特例刻画了不同类型的信息。下面列出了几种常见的特例。
(1)绝对mass函数:这类mass函数只有一个焦元,可以表示为mA,其中A为其唯一焦元。其表征的是可以确定真实结果位于集合A中。
(2)贝叶斯mass函数:这类mass函数的所有焦元都是单元素集合。在这种情况下,mass函数就退化为经典的概率分布函数。
(3)空mass函数:这类mass函数只有Ω这一个焦元,可以表示为。其表征的是对于真实结果的完全未知,因为在封闭模型中,假设是恒成立的。
(4)简单mass函数:这类mass函数*多只有两个焦元,而且其中一个是Ω,可以表示为Aω,其中A为除Ω之外的焦元,1.ω是真实结果位于A中的置信值。基于这一表示方法,空mass函数可以表示为;绝对mass函数可以表示为。
2.置信函数和似真函数
在置信函数理论中,除了mass函数之外,还有两种重要的证据表示方式:置信函数(belief function)和似真函数(plausibility function)。
定义1.2(置信函数和似真函数[31])假设Ω为所研究问题的辨识框架,m为基于辨识框架Ω的mass函数,则置信函数Bel和似真函数Pl分别定义为
置信度Bel(A)表示给予命题A的全部置信程度,为属于A的所有子集对应的基本置信指派之和,其构成了该证据对于命题A支持的下限;似真度Pl(A)表示不反对命题A的程度,为2Ω中所有与A的交集不为空的子集对应的基本置信指派之和,其构成了该证据对于命题A支持的上限。[Bel(A),Pl(A)]构成了证据不确定的区间,表示证据的不确定程度。mass函数m、置信函数Bel和似真函数Pl这三种证据的表示方式之间是一一对应的,可以相互转换。
三种基本函数具有以下性质:
(1)Bel(A).Pl(A),.A.Ω。
(2)置信函数Bel和似真函数Pl通过下面两式可相互转换:
(1.4)
(1.5)
式中,A表示集合A相对于辨识框架Ω的补集。
(3)mass函数m可以用置信函数Bel和似真函数Pl通过下面两式反演:
(1.6)
(1.7)
式中,|X|表示集合X的势。
从上面置信函数和似真函数的定义和性质可以看出,mass函数m、置信函数Bel和似真函数Pl这三者之间是一一对应的。图1.1给出了三者之间的转换示意图。
图1.1mass函数m、置信函数Bel和似真函数Pl三者之间的转换示意图
1.2.2证据的组合
1.2.1小节介绍了在置信函数框架下如何对所获取的证据进行表示。通常情况下,对于所研究的问题可以从多个途径得到描述该问题的多个证据。因此,需要将这些证据融合为一个*终的证据以供决策者进行决策。在本节中,将介绍一些常用的证据组合规则。这些规则的差异主要是基于以下两个方面的考虑:证据之间的相关性和证据的可靠性。
1.Dempster组合规则
Dempster组合规则是反映证据联合作用的*常用的一个法则。给定几个基于同一辨识框架Ω且来源于独立证据的mass函数,如果这些证据不是完全冲突的,那么就可以利用Dempster组合规则计算融合后的mass函数值,进而可进一步求出相对应的置信函数值和似真函数值。
定义1.3(Dempster组合规则[31])假设m1和m2为基于同一辨识框架Ω的mass函数,则二者基于Dempster组合规则的融合过程如下:
(1.8)
式中,
(1.9)
矛盾因子κ量化了mass函数m1和m2之间的冲突。只有当两个证据不完全冲突(即κ<1)时,Dempster组合规则才有效。由于Dempster组合规则满足交换律和结合律,因此公式(1.8)很容易推广到多个证据的融合。
2.cautious组合规则
应用Dempster组合规则的一个重要前提条件是待融合的证据之间是相互独立的,然而在实际应用中这一前提条件有时很难满足。针对相关证据的融合问题,Denoeux[45]提出了如下的cautious组合规则。
定义1.4(cautious组合规则[45])假设m1和m2为基于同一辨识框架Ω的mass函数,则二者基于cautious组合规则的融合过程如下:
(1.10)
式中,w1和w2分别为mass函数m1和m2规范分解[31]的权重函数;∧表示取*小值运算。和Dempster组合规则类似,cautious组合规则同样满足交换律和结合律,因此,公式(1.10)很容易推广到多个证据的融合。此外,该组合规则还具有幂等性,这一性质是一个合理的相关证据组合规则成立的必要条件。
3.基于三角范数的组合规则
前面介绍的Dempster组合规则
展开