泸西县图书馆“U书快借”平台

精彩书摘

第1章复杂不确定性系统概述
　　随着计算机科学和信息技术的飞速发展，特别是数据库技术与因特网的迅猛发展和广泛应用使人类所面对的数据呈几何级数增长，人们所涉及的系统越来越庞大，越来越复杂，对不完备信息分析与处理的技术要求也越来越高。
　　人们需要充分有效地分析这些不完备数据，从中挖掘出对人类生产、生活有益的信息。大数据知识发现就是在这种社会迫切需求下产生和发展起来的[1]。作为大数据知识发现的一个关键步骤，数据挖掘通过对数据进行分析，运用计算技术，从数据中提取特定的模型。数据挖掘方法的研究是数据知识发现研究领域的重要内容和热点[2]。数据挖掘方法中的粗糙集方法和聚类方法在数据知识发现中都得到了成功的应用，备受学术界关注[3， 4]。因此，越来越多的科学工作者开始致力于复杂不确定性系统的数据分析理论与方法的研究。
　　1.1 复杂不确定系统描述
　　1. 复杂系统定义
　　在自然界和人类社会中，事物都是以系统形式存在的。任何事物都可以看成一个系统，同时，又可以看作它所从属的更大系统中同其他事物相联系的一项要素的子系统。系统是由具有特定功能的、相互间有机联系的许多要素所构成的一个整体。
　　复杂系统是一个很难定义的系统，它存在于这个世界的各个角落。可以这样定义它：
　　（1）不是简单系统，也不是随机系统。
　　（2）是一个复合的系统，而不是纷繁的系统。
　　（3）是一个非线性系统。
　　（4）复杂系统内部有很多子系统，这些子系统之间是相互依赖的，子系统之间有许多协同作用，可以共同进化。在复杂系统中，子系统会分为很多层次，大小也各不相同。
　　2. 复杂不确定性系统定义
　　目前，人们所认识到的不确定性信息分为随机信息、模糊信息、灰色信息、未确知信息。随机信息是由随机试验获得的信息；模糊信息是事物元素特性界限不分明的信息，其概念具有“内涵明确，外延不明确”的特性；灰色信息是部分已知、部分未知的信息；未确知信息是认识不清的信息。
　　信息缺失是造成系统不完备的一个主要原因，直接导致系统的不确定性。具有不确定性信息的复杂系统称为复杂不确定性系统。
　　3. 复杂不确定性系统的特性
　　复杂不确定性系统具有以下三个基本特性。
　　（1）整体性。系统是由若干个不同要素组成的有机整体，不是简单的集合。其结构、功能、可操作性以及运行状态只有作为整体才能得以充分体现，离开了整体，任何一个元素，无论它是多么重要的元素，都将失去它的作用。
　　（2）相关性。系统各要素之间是有机联系、相互作用的，任何一个要素功能的发挥都离不开其他若干要素的支持；任何一个要素的作用都将支持其他要素功能的发挥；任何一个元素都不可能独立地发挥其作用，也不可能独立地影响系统整体功能的发挥。作为反映系统的信息也是如此。
　　（3）环境适应性。任何一个系统都处在一个特定的环境之中，它必须适应外部环境的变化才能立足于客观世界，才能发挥它应有的作用。源信息在向宿信息转换的过程中，外界环境会影响它的本质特性的表露。
　　4. 复杂不确定性系统与数据库知识发现
　　对于复杂不确定性系统数据分析，传统统计学主要的手段是指定一个模型的数据概率分布函数，从概率描述的形式中得出结论。但对具有海量数据的、庞大复杂的不确定性系统的分析，传统手段却显得无能为力。现有的不确定性分析方法不能综合考虑各种不确定性因素，并且对具有海量数据的系统分析存在许多困难。近年来，数据库知识发现的兴起，为复杂不确定性系统的研究带来了曙光，其特点如下。
　　（1）复杂的模型。系统所涉及的变量之间并没有一目了然的简单关系，变量之间存在非线性的、复杂的互相作用，知识发现更适合于解决复杂的问题。
　　（2）大型问题。知识发现通常涉及海量的数据集，从某种角度看，它采用了复杂模型，需要大量的数据来得到安全可靠信息。因此，算法的计算复杂性和稀疏性在知识发现中尤为重要。
　　（3）大量的离散变量。复杂系统中包含了连续和离散变量的数据集，统计学中大多数多变量分析方法是为连续变量模型设计的。知识发现方法适合于离散变量。一些基于规则的方法只能使用离散变量，需要将连续变量离散化。
　　（4）不确定性系统的描述。知识发现致力于对庞大、复杂的不确定性系统进行知识挖掘，它所挖掘的知识类型有：关联规则、分类规则、聚类规则、时序模式、相似模式、混沌模式、回归分析、趋势分析、偏差分析、预测分析等。数据挖掘技术综合考虑了系统的各种不确定性因素。
　　（5）深层知识的获取。知识发现旨在从大量数据中提取可信的、有效的、新颖的、潜在有用的、*终能被用户理解的模式。而传统的统计学只能获得数据的表层信息，而不能获得数据属性的内在关系和隐含的信息，即不能获得深层的知识。
　　1.2　数据挖掘
　　1.2.1 数据库知识发现概述
　　人工智能是在20世纪50年代开始发展起来的，随后人们开始设想应用计算机来获取知识，机器学习应运而生，其中比较有代表性的是神经网络的网络权值学习和下国际象棋的自适应修改启发式函数。1980年第一届国际机器学习研讨会召开，标志着“机器学习”学科成立。数据库知识发现（knowledge discovery in database，KDD）于1989年8月在美国底特律市召开的第一届KDD国际会议上正式形成。
　　KDD研究的问题有：
　　（1）定量知识和定性知识的描述；
　　（2）知识发现的方法；
　　（3）知识发现的应用。
　　知识发现被认为是从数据中发现有用知识的整个过程[5]，这个过程可以概括为数据准备（data preparation）、数据挖掘（data mining）、结果解释与评价（interpretation & evaluation）三部分，见图1.1。
　　图1.1 KDD过程
　　1.2.2 数据挖掘概述
　　第一届知识发现和数据挖掘国际学术会议1995年在加拿大召开。由于与会者把数据库中的“数据”比喻成矿床，数据挖掘一词很快就流行开来。
　　数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道但又是潜在有用的信息和知识的过程。也有一些文献把数据挖掘称为数据抽取、数据考古、数据捕捞。数据挖掘的对象有很多，如数据仓库、文本、多媒体、Web网页等，其中应用*多的是数据仓库[6]。
　　通常，按照驱动方法把数据挖掘分为自主数据挖掘、数据驱动挖掘、查询数据挖掘以及交互式数据挖掘[7]。如果按用户的活动角度分析，数据挖掘大体可分三类：模式识别、预测建模和分析评价。数据挖掘方法从不同角度得到了迅猛发展，如Han等[7]把概念层次引入数据挖掘，从而使面向属性归纳（attribute oriented induction，AOI）成为*有效的数据挖掘技术；Michalski等[8]提出关联规则及挖掘算法等。目前应用比较广泛的数据挖掘技术主要包括：统计分析方法、聚类算法、决策树算法、遗传算法、人工神经网络、模糊技术等。
　　1.3　复杂不确定性系统数据分析方法
　　在自然界和社会中发生的现象是多种多样的，有一类现象，在一定条件下必然发生，这种现象称为确定性现象，反之则称为不确定性现象。
　　在经典数学中，人们对一个问题的求解，往往是希望找到对问题进行描述的精确模型，如线性模型、神经网络等，并且已经拥有分析和合成各种线性、非线性系统的精确方法。实际上这些精确的模型在一种理想化的状态下才成立，而实际上，在大多数领域，如油田探测、天气预报、医疗诊断、证券分析等，问题求解可利用的数据或知识常常具有某种不确定性。造成这种不确定性的原因，既有主观方面的，又有客观方面的，例如，人们对客观世界的认识是一个不断发展、进步的渐进过程，通过这个不断学习的过程，人们不断地获取知识，强化知识，这也说明了人们掌握的知识是不确定的。同样，知识不确定性的动态积累和传递，导致了推理过程的不确定性，在推理的每一步都要综合数据和规则的不确定因素。可以说“不确定性无处不在”。因此，我们必须通过某种不确定的测度，寻找尽可能符合客观实际的计算模式，随着推理步骤的展开和不确定测度的传递计算，*终得到接近实际情况的结果。对于不确定性问题，人们经常采取概率论、模糊集、人工神经网络等方法来解决。
　　1.3.1 概率统计方法
　　概率模型是数学的一个分支，主要是用来解决随机不确定问题。总体来讲，可以分为两大类：频率论和主观概率。
　　频率论认为概率是一种客观概念，把概率定义为在绝对一致的条件下，一个事件重复发生次数的比例极限。在20世纪的绝大多数时间里，频率论的观点在概率论中占据着主导地位。
　　但是，*近十多年的时间里，一种新的概率观点—主观概率越来越受到学术界的重视，它认为概率是一个人对一个事件能否发生的确信程度。在主观概率中*具代表性的就是贝叶斯统计，它的核心就是显式地刻画数据分析问题中所有的不确定性。该方法要求人们必须根据主观经验事先给定必然似然率和充分似然率，并且假定条件是相互独立的。
　　现在基于概率的数据挖掘方法中有些在理论或实现方法上已经非常成熟。例如，Edwards对似然函数进行了深入的研究，Efron等[9]提出了Boostrap方法，Whittaker等[10]精辟地论述了在图形模型中处理条件依赖和独立的原则。由于概率论对于含义、外延、数据缺损等原因造成的不确定性问题不再适用，为此科学界提出了模糊集、粗糙集等理论。
　　1.3.2 模糊数学方法
　　模糊数学是在1965年由美国著名的自动控制专家Zadeh[11]提出来的，它是一种处理模糊概念、信息的理论。所谓模糊就是指不是由于随机性，而是由于缺乏从一种类别到另一种类别的明晰过渡所引起的不确定性。在界限模糊的分类中，一个对象对一个类别来说可以有一系列隶属等级。
　　模糊集确切的定义如下。
　　假设表示点空间，x表示X的一般元素，则在X中的模糊集A是一组有序数对：
　　A = {[x， μA(x)]}（1.1）
　　其中；称为x在模糊集A中的隶属等级。如果在被称为隶属空间的M中取值，则A实质上是从X到M的一个函数。称A的函数：为A的隶属度函数。当M中只包含0和1两点时，A是非模糊集，其隶属函数简化为常规特征函数。
　　模糊数学作为一个理论系统，同经典数学一样，也有一套完整的运算体系[12]，如模糊集的四则运算（模糊集的加法运算、模糊集的减法运算、模糊集的乘法运算等）、模糊集的关系运算、模糊集的状态方程等。
　　1.3.3 人工神经网络方法
　　处理不确定性问题，特别是处理多种不确定性并存的复杂问题是人类智能的重要特征之一。人工神经网络具有从人脑的生理结构出发来研究人的智能行为、模拟人脑处理信息的功能。
　　人工神经网络是由简单的处理单元所组成的大量分布的处理机。这种处理机具有存储和应用经验知识的特性，它与人脑的相似之处主要体现在两个方面：一是具有学习能力，人工神经网络通过学习过程从外部环境获取知识；二是人工神经网络内部的神经元（突触权值）可以存储获取的知识信息。由于人工神经网络具有学习能力，因此它适于并行处理，容错能力很强。
　　自1943年McCulloch等[13]提出形式神经元结构的数学描述（M-P模型）以来，人工神经网络走过了70多年曲折的发展道路，人工神经网络理论与应用技术取得了令人瞩目的发展。由于人工神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学习等优越特性，它已成为人工智能研究的重要工具，被广泛应用在模式识别、决策优化、知识发现、企业管理、专家系统等领域。
　　1.3.4 其他数据分析方法
　　处理复杂不确定性系统数据分析方法还有证据理论、遗传算法、集对分析、粗糙集等方

展开

目录
前言
第1章复杂不确定性系统概述 1
1.1 复杂不确定系统描述 1
1.2 数据挖掘 3
1.2.1 数据库知识发现概述 3
1.2.2 数据挖掘概述 4
1.3 复杂不确定性系统数据分析方法 4
1.3.1 概率统计方法 5
1.3.2 模糊数学方法 5
1.3.3 人工神经网络方法 6
1.3.4 其他数据分析方法 6
1.4 基于粗糙集的复杂不确定数据分析 6
1.4.1 粗糙集理论与知识发现 6
1.4.2 粗糙集理论的特征 7
1.4.3 粗糙集理论的基本概念 7
1.4.4 粗糙集理论处理复杂不确定数据的主要思想 13
1.5 聚类知识发现 13
1.5.1 聚类知识发现的基本原理 14
1.5.2 聚类知识发现的主要方法 14
1.5.3 聚类知识发现的研究方向 21
第2章不完备数据填补方法 23
2.1 不完备数据产生的原因及分类 23
2.1.1 不完备数据的概念 23
2.1.2 不完备数据产生的原因 23
2.1.3 不完备数据的特点及分类机制 24
2.2 不完备数据填补方法描述 26
2.2.1 不完备数据填补方法概述 26
2.2.2 不完备数据填补准则 27
2.2.3 不完备数据处理方法 28
2.3 基于断点的不完备数据填补算法 36
2.3.1 FUIDBP算法概述 36
2.3.2 FUIDBP算法同传统算法比较 43
2.4 一种基于新型关系矩阵的数据填补方法 45
2.4.1 传统粗糙集填补不完备数据方法的缺陷 45
2.4.2 新型关系矩阵概念 46
2.4.3 新型关系矩阵特点 48
2.4.4 新型关系矩阵数据填补方法描述 48
2.4.5 实验验证与分析 51
第3章连续属性离散化 57
3.1 基于超立方体和信息熵的连续属性离散化算法 57
3.1.1 连续属性离散化问题 57
3.1.2 DCASCE算法的思想及理论基础 59
3.1.3 DCASCE算法描述 66
3.1.4 DCASCE算法应用实例 67
3.1.5 DCASCE算法同其他离散化算法的比较 70
3.1.6 DCASCE算法复杂度分析 71
3.2 基于粗糙集的区间型离散化算法 72
3.2.1 离散化问题描述 72
3.2.2 区间值属性离散化步骤 73
3.3 基于粗糙熵的区间型数据离散化算法 73
3.3.1 算法相关定义 73
3.3.2 离散化算法描述 75
3.4 一种新的区间型数据离散化算法 78
3.4.1 区间数相似度及其性质 78
3.4.2 粗糙集及其离散化描述 79
3.4.3 离散化算法描述 80
3.4.4 算法分析改进 81
3.4.5 算法实例 82
3.4.6 实验结果和分析 84
3.5 Naive Scaler改进算法 87
3.5.1 Naive Scaler算法及说明 88
3.5.2 改进的Naive Scaler算法描述 91
第4章属性约简 94
4.1 基于信息量不完备信息系统的属性约简算法 94
4.1.1 容差关系及性质 94
4.1.2 相容类的计算方法 95
4.1.3 不完备信息系统信息量、属性重要性及正域 96
4.1.4 信息量属性约简理论 97
4.1.5 属性约简算法设计和实现过程 98
4.1.6 属性约简的增量式问题 100
4.1.7 系统实验 102
4.1.8 属性约简在银行信贷风险管理方面的简单应用 103
4.2 基于粗糙度属性约简算法的研究 105
4.2.1 理论基础 105
4.2.2 算法描述 106
4.2.3 实例分析 107
4.2.4 属性约简算法的复杂度分析 110
4.2.5 实验结果与分析 111
4.3 不确定信息系统中基于粒细度的属性约简 111
4.3.1 传统信息系统中求属性约简的缺陷 111
4.3.2 信息粒和粒计算 112
4.3.3 知识粒度的原理 113
4.3.4 新的粒度空间中知识粒度及其属性重要性度量 114
4.3.5 不确定信息系统的粒度属性约简算法描述 117
4.3.6 程序实现 121
4.4 基于不相容信息系统粒细度属性约简算法的改进 122
4.4.1 知识粒度属性重要性度量 122
4.4.2 基于粒细度的属性约简算法改进 123
4.4.3 实例验证 124
4.4.4 程序实现及算法分析对比 127
4.5 变精度属性约简算法 131
4.5.1 变精度粗糙集理论基本概念 132
4.5.2 基于变精度粗糙集模型的约简特征分析 134
4.5.3 变精度粗糙集模型约简研究 141
4.6 基于变精度粗糙集模型的属性约简 150
4.6.1 几种β约简方法 150
4.6.2 几种约简之间的关系 151
4.6.3 β分布约简的可辨识矩阵 151
4.6.4 实例分析 153
4.7 基于容差关系相似矩阵的折半启发式属性约简算法 155
4.7.1 容差关系相似矩阵及属性重要性 155
4.7.2 不完备信息系统折半启发式约简理论 157
4.7.3 算法设计和实现过程 158
4.7.4 程序实现 162
第5章规则提取 164
5.1 具有不确定属性值的决策规则提取算法 164
5.1.1 基于扫描向量的属性约简算法 164
5.1.2 RASV算法的相关定理 166
5.1.3 RASV算法的描述 168
5.1.4 RASV算法实例 169
5.1.5 RASV算法同其他属性约简算法的比较 171
5.2 基于属性值重要性和扫描向量的规则提取算法 172
5.2.1 REIAVSV算法的研究背景 172
5.2.2 REIAVSV算法的相关概念 174
5.2.3 REIAVSV算法的描述 174
5.2.4 REIAVSV算法应用实例 175
5.3 基于决策树的规则提取新算法 177
5.3.1 决策树的描述 177
5.3.2 条件信息熵及其变体的说明 178
5.3.3 粗糙集与决策树的分析 179
5.3.4 决策树新的属性重要性说明 179
5.3.5 算法描述及实例分析 182
第6章聚类知识发现 186
6.1 基于扫描向量和区间值的聚类算法 186
6.1.1 CBSVIV算法的提出 186
6.1.2 CBSVIV算法的核心思想 187
6.1.3 CBSVIV算法的描述 188
6.1.4 数值实例 193
6.2 基于数据对的聚类算法 194
6.2.1 基于数据对的聚类问题 194
6.2.2 CBDP算法的思想 196
6.2.3 CBDP算法描述 196
6.2.4 CBDP算法实例 200
第7章应用实例 201
7.1 电信客户市场细分问题分析 201
7.2 客户市场细分的实现 202
7.2.1 基本数据结构 202
7.2.2 数据预处理 203
7.2.3 客户市场细分 208
参考文献 212

展开