第1章 复杂不确定性系统概述
随着计算机科学和信息技术的飞速发展,特别是数据库技术与因特网的迅猛发展和广泛应用使人类所面对的数据呈几何级数增长,人们所涉及的系统越来越庞大,越来越复杂,对不完备信息分析与处理的技术要求也越来越高。
人们需要充分有效地分析这些不完备数据,从中挖掘出对人类生产、生活有益的信息。大数据知识发现就是在这种社会迫切需求下产生和发展起来的[1]。作为大数据知识发现的一个关键步骤,数据挖掘通过对数据进行分析,运用计算技术,从数据中提取特定的模型。数据挖掘方法的研究是数据知识发现研究领域的重要内容和热点[2]。数据挖掘方法中的粗糙集方法和聚类方法在数据知识发现中都得到了成功的应用,备受学术界关注[3, 4]。因此,越来越多的科学工作者开始致力于复杂不确定性系统的数据分析理论与方法的研究。
1.1 复杂不确定系统描述
1. 复杂系统定义
在自然界和人类社会中,事物都是以系统形式存在的。任何事物都可以看成一个系统,同时,又可以看作它所从属的更大系统中同其他事物相联系的一项要素的子系统。系统是由具有特定功能的、相互间有机联系的许多要素所构成的一个整体。
复杂系统是一个很难定义的系统,它存在于这个世界的各个角落。可以这样定义它:
(1)不是简单系统,也不是随机系统。
(2)是一个复合的系统,而不是纷繁的系统。
(3)是一个非线性系统。
(4)复杂系统内部有很多子系统,这些子系统之间是相互依赖的,子系统之间有许多协同作用,可以共同进化。在复杂系统中,子系统会分为很多层次,大小也各不相同。
2. 复杂不确定性系统定义
目前,人们所认识到的不确定性信息分为随机信息、模糊信息、灰色信息、未确知信息。随机信息是由随机试验获得的信息;模糊信息是事物元素特性界限不分明的信息,其概念具有“内涵明确,外延不明确”的特性;灰色信息是部分已知、部分未知的信息;未确知信息是认识不清的信息。
信息缺失是造成系统不完备的一个主要原因,直接导致系统的不确定性。具有不确定性信息的复杂系统称为复杂不确定性系统。
3. 复杂不确定性系统的特性
复杂不确定性系统具有以下三个基本特性。
(1)整体性。系统是由若干个不同要素组成的有机整体,不是简单的集合。其结构、功能、可操作性以及运行状态只有作为整体才能得以充分体现,离开了整体,任何一个元素,无论它是多么重要的元素,都将失去它的作用。
(2)相关性。系统各要素之间是有机联系、相互作用的,任何一个要素功能的发挥都离不开其他若干要素的支持;任何一个要素的作用都将支持其他要素功能的发挥;任何一个元素都不可能独立地发挥其作用,也不可能独立地影响系统整体功能的发挥。作为反映系统的信息也是如此。
(3)环境适应性。任何一个系统都处在一个特定的环境之中,它必须适应外部环境的变化才能立足于客观世界,才能发挥它应有的作用。源信息在向宿信息转换的过程中,外界环境会影响它的本质特性的表露。
4. 复杂不确定性系统与数据库知识发现
对于复杂不确定性系统数据分析,传统统计学主要的手段是指定一个模型的数据概率分布函数,从概率描述的形式中得出结论。但对具有海量数据的、庞大复杂的不确定性系统的分析,传统手段却显得无能为力。现有的不确定性分析方法不能综合考虑各种不确定性因素,并且对具有海量数据的系统分析存在许多困难。近年来,数据库知识发现的兴起,为复杂不确定性系统的研究带来了曙光,其特点如下。
(1)复杂的模型。系统所涉及的变量之间并没有一目了然的简单关系,变量之间存在非线性的、复杂的互相作用,知识发现更适合于解决复杂的问题。
(2)大型问题。知识发现通常涉及海量的数据集,从某种角度看,它采用了复杂模型,需要大量的数据来得到安全可靠信息。因此,算法的计算复杂性和稀疏性在知识发现中尤为重要。
(3)大量的离散变量。复杂系统中包含了连续和离散变量的数据集,统计学中大多数多变量分析方法是为连续变量模型设计的。知识发现方法适合于离散变量。一些基于规则的方法只能使用离散变量,需要将连续变量离散化。
(4)不确定性系统的描述。知识发现致力于对庞大、复杂的不确定性系统进行知识挖掘,它所挖掘的知识类型有:关联规则、分类规则、聚类规则、时序模式、相似模式、混沌模式、回归分析、趋势分析、偏差分析、预测分析等。数据挖掘技术综合考虑了系统的各种不确定性因素。
(5)深层知识的获取。知识发现旨在从大量数据中提取可信的、有效的、新颖的、潜在有用的、*终能被用户理解的模式。而传统的统计学只能获得数据的表层信息,而不能获得数据属性的内在关系和隐含的信息,即不能获得深层的知识。
1.2 数据挖掘
1.2.1 数据库知识发现概述
人工智能是在20世纪50年代开始发展起来的,随后人们开始设想应用计算机来获取知识,机器学习应运而生,其中比较有代表性的是神经网络的网络权值学习和下国际象棋的自适应修改启发式函数。1980年第一届国际机器学习研讨会召开,标志着“机器学习”学科成立。数据库知识发现(knowledge discovery in database,KDD)于1989年8月在美国底特律市召开的第一届KDD国际会议上正式形成。
KDD研究的问题有:
(1)定量知识和定性知识的描述;
(2)知识发现的方法;
(3)知识发现的应用。
知识发现被认为是从数据中发现有用知识的整个过程[5],这个过程可以概括为数据准备(data preparation)、数据挖掘(data mining)、结果解释与评价(interpretation & evaluation)三部分,见图1.1。
图1.1 KDD过程
1.2.2 数据挖掘概述
第一届知识发现和数据挖掘国际学术会议1995年在加拿大召开。由于与会者把数据库中的“数据”比喻成矿床,数据挖掘一词很快就流行开来。
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道但又是潜在有用的信息和知识的过程。也有一些文献把数据挖掘称为数据抽取、数据考古、数据捕捞。数据挖掘的对象有很多,如数据仓库、文本、多媒体、Web网页等,其中应用*多的是数据仓库[6]。
通常,按照驱动方法把数据挖掘分为自主数据挖掘、数据驱动挖掘、查询数据挖掘以及交互式数据挖掘[7]。如果按用户的活动角度分析,数据挖掘大体可分三类:模式识别、预测建模和分析评价。数据挖掘方法从不同角度得到了迅猛发展,如Han等[7]把概念层次引入数据挖掘,从而使面向属性归纳(attribute oriented induction,AOI)成为*有效的数据挖掘技术;Michalski等[8]提出关联规则及挖掘算法等。目前应用比较广泛的数据挖掘技术主要包括:统计分析方法、聚类算法、决策树算法、遗传算法、人工神经网络、模糊技术等。
1.3 复杂不确定性系统数据分析方法
在自然界和社会中发生的现象是多种多样的,有一类现象,在一定条件下必然发生,这种现象称为确定性现象,反之则称为不确定性现象。
在经典数学中,人们对一个问题的求解,往往是希望找到对问题进行描述的精确模型,如线性模型、神经网络等,并且已经拥有分析和合成各种线性、非线性系统的精确方法。实际上这些精确的模型在一种理想化的状态下才成立,而实际上,在大多数领域,如油田探测、天气预报、医疗诊断、证券分析等,问题求解可利用的数据或知识常常具有某种不确定性。造成这种不确定性的原因,既有主观方面的,又有客观方面的,例如,人们对客观世界的认识是一个不断发展、进步的渐进过程,通过这个不断学习的过程,人们不断地获取知识,强化知识,这也说明了人们掌握的知识是不确定的。同样,知识不确定性的动态积累和传递,导致了推理过程的不确定性,在推理的每一步都要综合数据和规则的不确定因素。可以说“不确定性无处不在”。因此,我们必须通过某种不确定的测度,寻找尽可能符合客观实际的计算模式,随着推理步骤的展开和不确定测度的传递计算,*终得到接近实际情况的结果。对于不确定性问题,人们经常采取概率论、模糊集、人工神经网络等方法来解决。
1.3.1 概率统计方法
概率模型是数学的一个分支,主要是用来解决随机不确定问题。总体来讲,可以分为两大类:频率论和主观概率。
频率论认为概率是一种客观概念,把概率定义为在绝对一致的条件下,一个事件重复发生次数的比例极限。在20世纪的绝大多数时间里,频率论的观点在概率论中占据着主导地位。
但是,*近十多年的时间里,一种新的概率观点—主观概率越来越受到学术界的重视,它认为概率是一个人对一个事件能否发生的确信程度。在主观概率中*具代表性的就是贝叶斯统计,它的核心就是显式地刻画数据分析问题中所有的不确定性。该方法要求人们必须根据主观经验事先给定必然似然率和充分似然率,并且假定条件是相互独立的。
现在基于概率的数据挖掘方法中有些在理论或实现方法上已经非常成熟。例如,Edwards对似然函数进行了深入的研究,Efron等[9]提出了Boostrap方法,Whittaker等[10]精辟地论述了在图形模型中处理条件依赖和独立的原则。由于概率论对于含义、外延、数据缺损等原因造成的不确定性问题不再适用,为此科学界提出了模糊集、粗糙集等理论。
1.3.2 模糊数学方法
模糊数学是在1965年由美国著名的自动控制专家Zadeh[11]提出来的,它是一种处理模糊概念、信息的理论。所谓模糊就是指不是由于随机性,而是由于缺乏从一种类别到另一种类别的明晰过渡所引起的不确定性。在界限模糊的分类中,一个对象对一个类别来说可以有一系列隶属等级。
模糊集确切的定义如下。
假设 表示点空间,x表示X的一般元素,则在X中的模糊集A是一组有序数对:
A = {[x, μA(x)]}(1.1)
其中 ;称为x在模糊集A中的隶属等级。如果 在被称为隶属空间的M中取值,则A实质上是从X到M的一个函数。称A的函数 :为A的隶属度函数。当M中只包含0和1两点时,A是非模糊集,其隶属函数简化为常规特征函数。
模糊数学作为一个理论系统,同经典数学一样,也有一套完整的运算体系[12],如模糊集的四则运算(模糊集的加法运算、模糊集的减法运算、模糊集的乘法运算等)、模糊集的关系运算、模糊集的状态方程等。
1.3.3 人工神经网络方法
处理不确定性问题,特别是处理多种不确定性并存的复杂问题是人类智能的重要特征之一。人工神经网络具有从人脑的生理结构出发来研究人的智能行为、模拟人脑处理信息的功能。
人工神经网络是由简单的处理单元所组成的大量分布的处理机。这种处理机具有存储和应用经验知识的特性,它与人脑的相似之处主要体现在两个方面:一是具有学习能力,人工神经网络通过学习过程从外部环境获取知识;二是人工神经网络内部的神经元(突触权值)可以存储获取的知识信息。由于人工神经网络具有学习能力,因此它适于并行处理,容错能力很强。
自1943年McCulloch等[13]提出形式神经元结构的数学描述(M-P模型)以来,人工神经网络走过了70多年曲折的发展道路,人工神经网络理论与应用技术取得了令人瞩目的发展。由于人工神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学习等优越特性,它已成为人工智能研究的重要工具,被广泛应用在模式识别、决策优化、知识发现、企业管理、专家系统等领域。
1.3.4 其他数据分析方法
处理复杂不确定性系统数据分析方法还有证据理论、遗传算法、集对分析、粗糙集等方
展开