第1章 顾及限定规则的空间聚类
从20世纪70年代起,聚类分析广受关注,并开展了大量研究。聚类分析方法可分为统计学方法和机器学习方法两类。在统计学领域,主要研究如何应用几何距离实现聚类。在机器学习领域,因聚类学习的数据对象不需要类别标记,聚类学习由计算机自动完成,一般被称为无监督学习(unsupervised learning)。随着数据挖掘的发展,聚类技术成为数据挖掘的主要技术之一,在知识发现领域发挥着重要作用。
1.1 空间聚类限定规则问题
空间聚类分析技术的发展为地理分析实际应用提供了有力工具。但在大多数情况下,由于空间中存在着许多的现实约束,聚类分析得到的结果往往与实际情形并不相符。为使空间聚类分析更好地解决现实问题,需对限定规则进行研究,将用户需求与聚类算法和限定规则综合起来考虑,使得到的聚类结果更贴近实际应用需求。
1.1.1 限定规则问题
1.空间限定规则
从GIS空间分析角度考虑,研究附加限定规则的空间聚类,*先想到的可能是空间限定规则。在空间中,自然障碍物如河流、山川等能严重影响空间聚类结果。例如,为更好地服务顾客,银行管理人员规划在图1.1(a)所示区域设置4台自动取款机。一种解决方案便是对空间中所有的人群活动点(图1.1中点所示位置)进行聚类,在活动点的聚类中心设置取款机。而实际上,在此空间区域中有河流存在,若不考虑河流,直接对居民活动点进行聚类将会得到图1.1(b)所示的结果。可以注意到,在此聚类结果中,簇C11分布于河流的两岸,河流两岸的点在空间上距离*近,而实际情况是从河流一边的点到达另一点,需通过桥梁绕行,这会使得两点之间的到达距离加大,甚至会大于河流一边点与其位于河流同侧其他簇中的点,这个聚类结果显然不符合实际。由此可见,空间聚类中考虑空间限定规则的必要性。
2.非空间属性限定规则
空间聚类分析处理的对象是空间实体,但这些空间实体在大多数情况下都具有非空间属性,在某些情况下,这些非空间属性甚至会主导空间聚类分析结果。如图1.2所示,在不考虑任何非空间属性影响因素而仅考虑目标对象空间位置情况下,可得到河南省各市区位置的聚类结果[图1.2(a)]。但这种聚类结果仅仅告诉用户哪几个市区在空间上距离*近,而不具备任何其他的实际应用意义。这时,将非空间属性因素纳入参考范围,以市区的经济发展状况为例,用各个市区近五年的经济发展指标作为空间聚类参考条件,再次对河南省各市区进行聚类,得到图1.2(b)所示的结果。该聚类结果直观地反映了河南省各市区在经济发展状况上的相似性,呈现出河南省地方区域经济发展水平。该实例说明了非空间属性在空间聚类分析应用中的重要价值。
图1.1 自动取款机位置规划
图1.2 非空间属性限定规则影响聚类
3.方位限定规则
对象的空间分布往往存在着地域差异,以中国为例,在经济发展水平上,东部沿海城市要明显高于中西部城市,但人文景观丰富度,中西部城市要明显高于东部沿海城市。在进行职业地点选择时人们会倾向于选择东南部城市,因其经济水平较其他方位城市来说更为发达,发展机会更多。这种方位性特征对空间聚类结果产生影响。
1.1.2 限定规则问题定义及相关概念
在空间聚类中附加限定规则需要付出代价,而且规则的建模对*终获得一个有效的聚类结果来说也极其重要。为了对限定规则进行模拟,我们采用凸多边形来描述空间中实际存在的障碍物,如河流、湖泊等,并引入可见性以及可见空间的概念扩充对聚类簇的定义。
1.障碍物(obstacles)
障碍物统一用多边形表示,记为 O(VE),其中为障碍物的顶点,为障碍物的边,vi和 vi+1为 ei相应的顶点,1≤i≤n;如果i+1>n,那么。我们规定障碍物皆为凸多边形。
2.可视性(visibility)
给定点集为连接 di和 dj的线段,且线段,若l与障碍物边界ek无交点,则 di,dj两点可视,反之,则两点间存在障碍物,不可视。
3.可见空间(visibility space)
现有点集其中,若si和sj间相互可见,则 S为可见空间。若与si不相互可见,则必有且。
4.聚类簇(clusters)
现有数据集,其中,CD,可用均值ε和均方差 Minpts表达为高斯模型,若集合满足以下条件:①对于任意的,若 i.并且 d在ε和 Minpts约束的高斯模型范围之内,则②对于任意的和皆在ε和 Minpts约束的高斯模型范围之内,且对于任意的,ci和 cj是相互可见的,那么 C是基于ε和 Minpts的一个簇。
1.2 附加限定规则的空间聚类
一般情况下,聚类过程是根据一定规则将一组对象归为不同类,视应用目的不同,聚类结果会出现差异。*常见的聚类规则是对象间以及对象与所属聚类簇间欧氏距离*短原则。在实际应用中,欧氏距离存在明显不足。如隔河相望的两点 A、B,从 A点到达 B点的实际距离很可能远远大于两点间的直线距离,直接套用欧氏距离得到的聚类结果将与实际情况出现巨大偏差。这种影响空间聚类的空间障碍物称为空间限定规则。
除客观世界存在的障碍物外,对于特定应用还应在聚类过程中附加相应限定规则。如应用空间聚类进行选址,需根据应用方向制定相应的选址规则,用选址规则指导聚类,以得到更加符合客观事实的聚类结果。这种用户根据特定需求制定的限定规则称为非空间属性限定规则。
另外,实体的空间位置决定了实体间会存在着一定的方位关系,在某些情况下,人们会将方位因素考虑进去,如进行工作城市的选择时,人们会倾向于选择东部城市,因为东部地区气候温和,交通便利,生活舒适。所以在聚类时,会将方位影响因素考虑进去,这种限定规则被称为方位限定规则。
1.2.1 附加空间限定规则的空间聚类
1.附加空间限定规则的空间聚类实现的数学基础
假设有 n点集合及无相关性的障碍集。其中,障碍物 oi表示为一个多边形,其边为,结点为。定义点 p,q间的障碍的距离为在不经过任何障碍物的情况下,由 p到 q的*短欧氏距离。则将附加限定规则的空间聚类定义为将 P依据障碍距离聚为 k个簇的过程。在聚类过程中必须使聚类结果的均方误差限定在之内,其中,ci为簇Cli的中心。
1)可视路径计算
空间索引是按照空间分布特性来组织和存储数据的数据结构。建立空间索引机制的主要目的是提供数据的访问路径或指针,便于空间对象的查询以及各种空间数据的操作,提高空间数据的搜索速度。因加上空间障碍,空间划分会更加复杂,分割深度增大,经比较筛选,我们在研究工作中采用了BSP树建立空间索引。
BSP树又称空间二叉分割树,是二叉树的一种,它可将空间逐级进行一分为二的划分,能很好地与空间数据库中空间对象的分布情况相适应。
假设 p、q为空间中两点。如果 p、q两点间连线与任一障碍物皆无交点,则可认为 p到 q通视。如果用BSP树表示从点 p到障碍物各结点的可视性,从 p点开始,对BSP树进行遍历,得到一系列通视的点,直至点 q,表示为 vis(p),即为在障碍物存在的情况下,点 p到点 q的通视路径。
2)障碍距离计算
障碍距离的计算借助可视性分析图实施。假设空间中有 m个障碍点可视性分析图,其中 vv.为障碍物结点的集合,当且仅当 V中两结点间相互通视时,构成边 E。如图1.3所示,障碍物结点 v1、v5构成可视化分析图的一条边。给定空间 R内相应两点为其相应的可视性分析图。由图1.3可知,点 p到 q可视路径,必然始于 v1、v2、v3之一,经过 VG的中某一路径,*终通过结点v4或者,其中,为 V中相应结点,为内相互通视的两结点相应边。用于存放点 p到 q所有可视路径。其中*优路径长度即为点 p到 q的障碍距离。
图1.3 可视性分析
2.附加空间限定规则的空间聚类的实现
在附加空间限定规则的聚类中,可以认为障碍物仅影响两点间距离的改变,因而附加空间限定规则的空间聚类的实现仅需改变距离函数,这种方法在 Clarans算法基础上实现。但这种方法并不完善,*明显的是该方法忽略了障碍物本身对聚类结果的影响。为此,我们研究了另一种方法,记为 Raise-Clarans法。
Clarans方法采用 k-中心算法实现。首先随机选取 k个对象作为聚类中心,然后将其余对象分配至距其*近的聚类中心的所属簇中,并计算均方误差 E。有学者对 Clarans算法进行了改进,将其应用于具有空间障碍的空间聚类中,提出 COD-CLARANS算法。该算法随机顺序选取聚类簇中心,记为,再随机选择另一对象替代,如果新得到
的聚类方案优于现有聚类方案,则用新的聚类中心代替原有的聚类中心,直至所有聚类中心都经过验证*后得到*优的聚类方案。
除此之外,Raise-Clarans方法的实现还有一些问题需要解决。首先,因COD-CLARANS是一种迭代寻优算法,每次循环都需计算均方误差 E,计算量巨大,计算过程将会占据大量内存。另外,此算法需要随机选择对象来替换聚类中心,很有可能出现选择的聚类中心不是*优的情况,造成计算资源浪费。在进行海量空间数据聚类时,以上两个问题将会更加明显。为此,采取以下两种策略。
第一种策略是参照 BIRCH和 CHAMELEON聚类方法,在聚类之前,先对聚类对象进行预聚类,将对象集合分割为大量小型的簇,小型簇中的对象有*大的相似度,*大可能的属于同一簇。然后再用小型簇中心点来代替此小型聚类簇,这将会大大减少 Raise-Clarans计算过程中的数据量。为更好地实现聚类算法,小型簇中心点需同时存储小型簇的信息,如包含点个数、直径等。
第二种策略是计算随机选择对象所对应的聚类均方误差E.,与现有 E进行比对,如果E.大于 E,说明目前的聚类结果已处于较优地位,不必计算 E。计算时用随机选择簇中心cran到小型簇的直线距离 d代替两者间的障碍距离 df,可以证明,d是 df的正确近似代替。同样可以推理出*优解的E.是 E的*小值。
下面讨论 Raise-clarans方法的具体实现。
1)预聚类(Pre-clustering)
(1)将空间区域R划分为 n个子区域互不相交,且与障碍物无交点,并保证,如图1.4所示。
图1.4 空间区域划分
(2)在每个子区域内进行子聚类,各个子簇中心皆在相应子区域内,彼此间可见,可以确保各个子簇不会与障碍物有交点。
(3)构建子簇中心与障碍物结点的BSP树。根结点与终结点皆为子簇中心,在研究过程中要求BSP树无向即可,因此,可将空间区域大致平均分为两部分:一部分作为根结点;另一部分作为终结点。
(4)构建可视性分析图。可视性分析图在BSP树的基础上构建生成,因此要求可视性分析图的起点与BSP树的根结点相同,终点与BSP树的终结点相同。
(5)构建空间连接索引。空间连接索引是为方便进行障碍距离计算构建的,分为三种类型。
VV索引:可视性分析图中任意两个障碍物结点间所有可视连接的索引。障碍距离的计算离不开障碍物结点间可视性距离的计算, VV索引将会大大减少这些距离的计
展开