第1章引言
1.1 数据挖掘的定义
随着计算机软硬件技术的飞速发展和普及,数据的收集和存贮发生了质的改变,积累的数据量以指数方式增长,并催生出大数据。一般认为大数据具有以下特征:规模性(volume)、高速性(velocity)、多样性(variety)、准确性(veracity)。各行业均希望从海量的数据中获取有价值的信息,例如:超市的管理者希望通过改善不同商品的陈列位置,增加营业额;银行和证券从业者希望深入了解各类客户的一般特征;制造业希望通过研究以往数据和市场行情,预测未来的销售额;医学研究者希望从众多病例中归纳出某种疾病的病人的共同特征;网络平台根据用户的兴趣特点进行个性化推荐等。以往的数据分析工具(统计、查询等)都是对指定数据进行简单的数学处理,无法准确获取数据所包含的内在信息。各行业均希望有一种全新的技术能够提供更高层次的数据分析能力,将大量的数据转换为知识,从而更好地为科研和工作提供支持。数据挖掘(data mining,DM)在此背景下应运而生。
数据挖掘又称为数据库中的信息和知识发现,是数据库研究中很有应用价值的新领域,是一个决策支持过程。数据挖掘融合了人工智能、机器学习、模式识别、统计学、数据库、数据可视化等多个领域的理论技术,目前还处于发展阶段。国内外研究者从不同角度对数据挖掘进行定义。钟晓等(2001)认为数据挖掘也称为数据开采、数据采掘,是按照既定的业务目标从海量数据中提取潜在、有效并能被人理解的模式的高级处理过程。王光宏和蒋平(2004)认为数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程。国外的研究中,IBM公司认为数据挖掘是从大型数据集中发现模式和其他有价值信息的过程。SAP公司将数据挖掘定义为从数据积累中提取有用信息的过程,通常是从数据仓库或者链接数据集中提取有用的信息。从这些定义中不难看出,数据挖掘主要包含两个方面的信息:一是大量的数据,二是提取有价值的信息。但这些定义缺少提取的方法和流程,从数据到有价值的信息和知识,需要大量的工作,包括目标设定、数据收集和处理、模型构建、模式提取和结果评估等,尤其是目标设定,这是数据挖掘过程中最难的一部分。另外,数据挖掘的目的是筛选大量数据,以确定趋势、模式和关系,从而支持明确的决策和规划。
结合前人的研究基础,本书认为数据挖掘本质上是一种决策支持过程,即运用数学统计方法、机器学习方法、面向数据库的方法、混合方法及其他方法,通过问题定义、数据提取、数据预处理、模型构建和模式挖掘、结果评估和知识实施等步骤,作出归纳性的推理,发现有价值的信息和模式,以实现预测和描述等目标,进而为决策者提供策略建议,降低风险的过程。目前,数据挖掘广泛应用于市场营销、运筹优化、欺诈检测等领域。
1.2 数据挖掘的起源
数千年以来,人们一直在收集和分析数据,得出有价值的信息以用于决策。其基本过程为:识别所需的信息,找到高质量的数据源,收集和组合数据,使用最有效的方法和已有的知识对数据进行分析,得到有价值的结果。随着计算机算力及数据库技术的发展,管理和分析数据的工具也在发展。20世纪60年代,由于关系型数据库技术和面向用户的自然语言查询工具,如结构化查询语言(SQL)的飞速发展,用户可以交互式地探索他们的数据,并寻找隐藏在其中的有价值的信息。“数据挖掘”一词直到20世纪90年代才被提出,数据挖掘的基础包括两个相互交叉的学科:统计学和人工智能,前者侧重于数据关系的数值研究,依赖使用模型;后者侧重于主动检测特定事件,依赖使用算法。作为一门新兴的学科,数据挖掘是由上述学科相互交叉、相互融合而形成的产物。随着数据挖掘的进一步发展,它必然会带给用户更大的便利。
数据挖掘传统上是数据科学中的一项专业技能,是商务智能的关键组成部分。计算机处理能力的提升使研究人员能够超越手动、烦琐和耗时的数据挖掘工作,实现快速、简单和自动化的数据分析。现代数据挖掘依赖于云计算和虚拟化及内存数据库,经济高效地管理来自多个来源的数据,包括社交媒体、物联网传感器、位置感知设备、音频和视频等,并根据需要进行扩展。零售商、银行、制造商、电信服务商和保险公司等正在使用数据挖掘来发现从价格、促销、人口统计到经济、风险、竞争和社交媒体如何影响其商业模式、收入、运营和客户等方面的关系。
1.3 数据挖掘的类型
数据挖掘是一项通用的技术,对数据的类型没有过多的限制,只要与研究问题相关,任何类型的数据都可以进行处理。常见的数据类型有:数据库数据、数据仓库、事务数据、时间序列数据、文本和多媒体数据、空间数据等,如何从这些数据中获取有价值的信息,给数据挖掘带来了新的挑战。
1.3.1 数据库数据
数据库是结构化信息或数据的有组织的集合,通常以电子方式存储在计算机系统中。数据库通常由数据库管理系统(database management system,DBMS)控制。数据和数据库管理系统及与它们相关的应用程序被称为数据库系统,简称为数据库。数据的来源相对多样化,如出行数据、医疗数据、农业数据、网页数据和消费记录等。
数据库类型的数据通常以一系列表中的行和列进行建模,以提高处理和数据查询的效率。进而便于访问、管理、修改、更新、控制和组织数据。大多数数据库使用结构化查询语言(structured query language,SQL)来编写和查询数据。
1.3.2 数据仓库
数据仓库是一种数据管理系统,它将不同来源的数据聚合到一个统一的中央数据存储中,以支持数据分析、数据挖掘、人工智能和机器学习。数据仓库系统使组织能够以标准数据库无法实现的方式对海量历史数据进行分析。数据仓库可以快速方便地分析从运营系统(销售点系统、库存管理系统或营销数据库)上传的业务数据。
数据仓库系统一直是商业智能解决方案的一部分。数据仓库通常托管在主机上,其功能主要为从其他数据源提取、清理和准备数据,在关系数据库中加载和维护数据。数据仓库也可能托管在专用设备上或者云中,大多数数据仓库都增加了分析功能、数据可视化和演示工具。
1.3.3 事务数据
事务数据是从事务中捕获的信息,记录了交易的时间、发生地点、购买物品的价格、采用的付款方式、折扣,以及交易相关的其他内容。事务数据中的每一条记录代表一个事务,如学生在校园图书馆的一次图书借阅记录、信用卡用户的一次消费记录、消费者在超市的一次购物记录等。一般情况下,事务数据的组成包括:事务标识号(必须是唯一的)、组成事务的项的列表(消费记录的详细信息和借阅的图书)、相关联的附加表(事务的其他信息,如人员的详细信息、产品的描述、部门的信息等),表1-1是学校图书馆的图书借阅事务数据库示例。事务数据库的记录通常都是数以万计的规模,表面上看记录之间并无太多的关联,但通过数据挖掘对其进行分析可以获取许多有价值的信息。
1.3.4 时间序列数据
时间序列数据是在不同时间上收集到的数据,用于所描述对象随时间变化的情况。这类数据反映了某一事物或现象随时间的变化状态或程度。例如从1952年到2021年我国国内生产总值就是时间序列数据。时间序列数据可按季度数据、月度数据进行细分,其中具有代表性的季度时间序列模型就是因为其类似四季的变化规律,虽然变化周期不尽相同,但是整体的变化趋势都是按照周期变化的。
1.3.5 文本和多媒体数据
文本数据通常由可以表示文本的单词、句子和段落的文档组成,与其他类型的数据不同,文本数据的挖掘侧重于对文本的信息检索。文本数据挖掘是将文本结构转换为结构化格式以识别有意义的模式和知识的过程。而其固有的非结构化和噪声性质使得机器学习方法难以直接处理原始文本数据。
多媒体数据指不同类型的媒体的数据集合,以捕获与对象和事件相关的信息。常见的数据形式有数字、文本、视频、图像、音频等。在通常的用法中,只有当涉及音频和视频等时间相关数据时,才会将数据集称为多媒体。
1.3.6 空间数据
空间数据也称为地理空间数据、空间信息和地理信息,用于描述与地球表面特定位置相关或包含有关该位置信息的任何数据。空间数据由点、线、多边形、其他地理和几何元素组成。这些数据基元按位置进行映射,与对象一起存储作为元数据或由通信系统用于定位终端用户设备。空间数据可以被分类为标量数据或矢量数据。
1.4 数据挖掘的功能与模式
数据挖掘的基本步骤,如图1-1所示。数据挖掘和数据分析之间存在混淆,数据挖掘功能用于定义挖掘活动中包含的趋势和相关性,数据分析用于测试适合数据集的统计模型。数据挖掘使用机器学习,以及数学和统计模型来发现数据中隐藏的模式。相比之下,数据挖掘可以分为两类:一类是描述性,用于刻画目标数据中数据的一般属性,如使用柱状图显示某一项目在几个特定的时间段内的数据变化,或者比较几个项目在特定时间段内的差异;另一类是预测性,帮助开发人员提供未标记的属性定义,主要是对目标数据的内在规律进行归纳总结。利用以前可用的或历史数据,数据挖掘可用于基于数据的线性度对关键业务指标进行预测。
数据挖掘的功能和模式主要包含以下内容:数据特征化与数据区分,挖掘频繁模式、关联和相关性分析,分类和回归,聚类分析,离群点分析等。
1.4.1 数据特征化与数据区分
数据可以与类或概念相关联,通过数据特征化和数据区分,用简洁、精确、概括的语言描述各个类及概念。
1. 数据特征化
数据特征化是汇总目标数据的一般特征。首先通过查询、调查记录等方式来收集目标数据,然后用统计分析的方法进行定量描述。数据特征化的输出可以有多种形式,包括散点图、茎叶图、条形图、柱状图、饼形图、曲线等。
2. 数据区分
数据区分是指当预定义的数据类型或数据源被有意或无意地区别对待时发生的偏见。
1.4.2 频繁模式、关联和相关性分析
频繁模式是指数据中频繁出现的模式。存在多种类型的频繁模式,如频繁项集、频繁子序列和频繁子结构等。
频繁项集是指频繁在事务数据集中同时出现的商品的集合,如快餐店里被消费者频繁购买的汉堡和可乐,电影院里被顾客频繁消费的爆米花和薯条等。
频繁子序列类似于顾客先购买一辆汽车,然后再购买汽车相关的配件,如安全座椅、行车记录仪、坐垫等,这样的模式就是一个频繁子序列。
频繁子结构涉及不同的结构形式,如图、树或者格等,可以与频繁项集或频繁子序列结合在一起。若一个子结构频繁地出现,则称为频繁结构模式。
关联和相关性分析。关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。关联分析的一个典型例子是购物篮分析,该分析通过发现顾客放入其购物篮中的不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客购买,这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。相关性分析则是分析两个或两个以上的随机变量之间的相关关系,如体重和身高的相关关系。
1.4.3 分类和回归
分类用于预测数据对象的离散类别,需要预测的属性值是离散的、无序的。分类是通过有指导的学习训练建立分类模型,并使用模型对未分类的实例进行分类。
回归是确定两种或两种以上变量间相互依赖的定量关系,建立的是连续值函数模型,预测的是数据值,而不是类标号。回归分析是一种常用的数值预测的统计学方法,预测的属性值是连续的、有序的。
分类和回归的区别是:分类是用来预测数据对象的类标记,而回归则是估计某些空缺或未知值。例如,预测明天上证指数的收盘价格是上涨还是下跌是分类,预测明天上证指数的收盘价格是多少则是回归。再比如银行业务中,根据贷款申请者的信息来判断贷款者是属于“安全”类还是“风险”类,这是分类,而分析给贷款人的贷款量则是回归。
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录