基础篇
第1章概述
本章首先阐释客观世界、信息世界、数字世界的关系,辨析数据和大数据的概念,并从数据安全的视角,给出数据的特性和分类;然后,给出数据安全的概念和完整的数据安全属性,在全面分析数据安全风险与需求的基础上,设计包括法律法规与标准规范、数据安全技术、数据安全管理的数据安全体系。
1.1数据与大数据
1.1.1数据和大数据的定义
我们所处的世界由客观世界、认知世界和数字世界组成。理解和掌握数据安全理论与技术,必须首先深入认识数字世界与客观世界、认知世界之间的关系,把握数据的定义。
客观世界是指物质的、可以感知但尚未完全感知的世界,是人的意识活动之外的一切物质及其运动的总和;它包括自然存在和人的社会存在两部分内容,前者不依赖人的活动而独立存在,后者形成于人的实践活动之中,又不以人的意识为转移。
认知世界是指人类大脑对客观世界的认识,它包括信息、知识、智慧等。我们可以把信息看作客观世界中各种事物的属性、状态及这些事物之间相互联系和相互作用在人类大脑中的具有一定意义的反映和表征;知识是通过采用归纳、演绎、比较等手段对信息进行挖掘,加以沉淀并整合到已有人类认知中所形成的结构化的有价值信息;智慧则是人类基于已有的知识,针对客观世界运动过程中产生的问题,根据获得的信息进行分析、对比、演绎从而找出解决方案的能力。
数据是指对客观事物的性质、状态以及相互关系等进行记录的可识别的、抽象的符号。数据使用的符号是约定俗成的,即是被某一人类群体所公认的,以适合在这个领域中用人工或自然的方式进行保存、传递和处理。数字世界则是数据形成的符号化世界的总称,是数据记录的虚拟世界。
数据古来有之,如人类早期用纸和笔记录的语言、文字、数字等;在信息化技术早期,数据主要采用非自动化形式,如通过键盘录入等,进入以计算机为代表的电子设备中,数据主要用于日常业务信息的管理。
随着物联网、传感技术、移动网络、脑机交互等技术的发展,数据的采集、处理、计算能力产生了质的飞跃,客观世界、认知世界、数字世界之间的鸿沟被逐步填平。客观世界的事物的状态及其关系,甚至认知世界中的信息、知识,都可以以自动化方式快速无缝地进入网络空间的电子设备中,这些结构化或者非结构化数据汇聚在一起,形成了飞速增长的大数据(Big Data);根据互联网数据中心(Internet Data Center,IDC)发布的数据,2020年全球数据量大约64ZB,根据国际权威机构Statista的预测,到2035年,这一数字将达到2142ZB(注:ZB以字节为单位计量,1ZB(Zettabyte十万亿亿字节,泽字节)=240GB,1ZB=1024EB=1024×1024PB=1024×1024×1024TB=1024×1024×1024×1024GB),全球数据量即将迎来更大规模的爆发。
根据研究机构Gartner给出的定义,大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术通常包括用于大数据处理和计算的数据收集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测、结果呈现等技术,涉及分布式与并行处理、机器学习与人工智能等多个学科领域,它能够从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值。随着大数据技术的蓬勃发展,人工智能技术焕发出新的生机和活力,在机器的辅助下,人类的认知得到极大的扩展。
客观世界、认知世界和数字世界的关系如图1-1所示。客观世界的自然存在和人的社会存在被人们感知的部分进入认知世界,形成人们认识到的信息,并在此基础上形成知识和智慧;认知世界中的信息、知识和智慧可以经过符号化(编码)形成数字世界的数据,形成认知的符号化部分。然而,人类认知也有可能存在于数字世界之外,即存在于人们的大脑中的未编码的认知尚不能称为数据;客观世界的自然存在和人的社会存在也可以通过各种人们经意或者不经意设置的传感器(如物理传感器等数据采集设备、手机等移动终端、各类信息系统等),对来自客观世界测量和采集到的对象、信号、关系、行为等进行记录并直接传递到数字世界,这些数据虽然经过编码并存储,但其中某些独立的数据记录本身可能不承载任何信息,人们通过自身或者通过机器学习等手段对数据进行解释、分析和挖掘,可以为这些数据赋予特定的含义,得到有用的信息、知识和智慧,形成数据的可解释部分;并且,对同样一份数据,不同的人或用不同的方法进行解释和分析,可能得到不同的结果。随着人工智能技术的发展,利用机器学习等技术对大数据的分析与挖掘,可以得到超越人类感官认知的信息、知识和智慧,进而拓展人们对世界的认知,并在智能系统的辅助下更充分地认识世界和改造世界。
在不引起混淆的情况下,本书中的数据和大数据特指存在于网络空间(或者称为赛博空间,Cyberspace)中的电子记录,包括以特定编码(格式)形式存在的模拟数据和数字数据。这里网络空间主要是指信息环境中一个整体域,它由独立且相互依存的信息基础设施和网络组成,形成计算的资源和环境,包括互联网、电信网、计算机系统、存储系统、嵌入式处理器、控制器系统、传感器等。而数据则是网络空间中计算和处理的对象。
1.1.2数据的特征
数据主要具有多样性、关联性、衍生性、时效性、动态性和目的性六大特征。
(1)多样性:数据涵盖政务、商务、医疗、金融交通等多个领域,具有数字、文字、语音、视频、图形等多种表现形式。
(2)关联性:数据之间存在联系和相互影响。各类数据之间存在的特定对应和联动关系,可以通过提取、查询、串接,形成不同的数据集合,通过将不同类型、不同来源的数据的关联运用,分析发现它们之间的内在联系,可以达到特定的目的。
(3)衍生性:数据通过加工处理能够形成具有新质的数据。针对特定的服务对象和应用目的,对原始数据进行分类、统计、重组、关联、确认、整合等加工处理,可以在原始数据的基础上形成不同层级、不同粒度的新质数据。
(4)时效性:数据通常只能在一定时间内发挥效用。数据的效用与时间关联紧密,超过特定使用时间就失去了应有价值,有时甚至导致决策失误和行动失败。
(5)动态性:数据随时间动态变化。实际应用过程中很多数据都是动态多变的,需要依据应用需求,采取定时、及时、适时等方式动态更新。
(6)目的性:对一组数据的运用通常具有特定的服务对象和应用目的,而且特定的服务对象和应用目的往往需要特定的数据来支持,因此,需要依据决策、行动的实际需求,对数据进行采集、组织、存储、处理等操作。
大数据除了具有上述特性之外,IBM提出的以下“5V”特性一直受到业界认可。
(1)规模空前,即采集、存储和计算的数据量都非常大(Volume)。
(2)来源和种类繁多,包括网络日志、音频、视频、图片、地理位置等不同来源的结构化、半结构化和非结构化数据(Variety)。
(3)数据价值密度相对较低,需要通过强大的机器算法来挖掘数据的价值(Value)。
(4)数据增长速度快,处理速度(Velocity)和时效性要求高。
(5)数据的准确性和可信赖度高,即数据能够真实地反映现实世界状态和人类认知(如思想、心态等)及行为(Veracity);然而,也有研究者指出,Veracity特性有时与事实相悖,网络空间中也存在大量的虚假、错误数据。
1.1.3数据的分类
数据是一个庞杂的大体系,通常可以从不同角度进行分类。传统的数据分类方法从数据性质、表现形式、记录形式等角度对数据进行分类。本书将从数据安全的视角,对数据进行分类。
1.基于数据描述实体的数据分类
客观世界中的对象也称为实体,包括个体和群体;实体身份又分为主体和客体。在哲学领域,主体和客体是认识论的一对基本范畴,主体指在社会实践中对世界的认识者和改造者,包括个人、群体和整体人类;客体指与主体相对应的客观事物、外部世界,是主体认识和改造的一切对象。在数据领域,将主体定义为对数据进行采集、存储、处理、传输、交换、销毁等操作的主动实体,包括与人相关联的用户、用户组、终端、主机、应用、进程等;将客体定义为数据本身以及与数据传输、存储、计算、处理等操作所依附的处理器、存储器、服务器、网络等相关资源。
从记录实体的角度,数据可以分为以下几种。
(1)实体身份数据:为了在数字世界中表示并唯一标识实体,对实体的身份进行编码(符号化),形成实体身份数据。例如,某一公民,其身份证号就是其实体身份数据;联网的计算机的MAC地址,可以作为该计算机的网络连接的实体身份数据。
(2)实体属性数据:与实体身份数据相关联,记录实体的性质、状态、历史演变等数据。例如,记录某人的姓名、性别、年龄、喜好、行踪的数据是该实体的属性数据。
(3)实体关系数据:实体之间存在某种具有意义的联系,如某人拥有某物、A国和B国之间是盟国关系、C与D在某问题上观点一致等,记录实体关系的数据称为实体关系数据。实体关系数据可以是显式的和隐式的,显式实体关系数据可直接用某种形式表示,而隐式实体关系数据可以通过对大量多源异构数据的分析挖掘得到,对实体和实体关系画像,进而建立某一领域的知识图谱;基于实体关系数据的知识图谱等技术,可广泛应用于公安侦查、金融风控、营销个性化服务和企业数据应用等场景。
(4)事件过程数据:与实体或实体集的各种现实业务活动相关的数据,它是现实业务活动的演变在数字世界中形成的随时间变化的电子记录映像。例如,在商品生产流通环节,某商品G由制造商P生产,通过中间商或物流M1、M2、 、Mn,*终到达某消费者C手中;公文由A发起,并流转到B、C、D进行审签处理;用户A在T1、T2、T3时刻在数据D1、D2、D3上分别做了O1、O2、O3操作等。
(5)聚集性数据:反映对细节性数据的综合处理结果的数据,如求和、求平均值、计数等数据。为了企事业等实体更好地进行基于数据分析的决策,可以将聚集性数据放入建立的数据仓库(Data Warehouse)。数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持基于多维数据分析、数据挖掘的管理决策。
2.基于数据在网络空间存在状态的数据分类
从数据在网络空间的存在状态角度,数据可分为静态数据和动态数据。静态数据是指以某种形式存储于某种存储介质和系统(如计算机硬盘、云存储、文件系统、数据库系统等)中供用户访问和处理的数据。动态数据是指在通信线路或网络中传输、在内存中处理的数据。
3.基于数据表现形式的数据分类
从数据表现形式的角度,数据又分为结构化数据、半结构化数据和非结构化数据。结构化数据是指采用某种数据模型(如关系数据模型)表示和存储的数据;半结构化数据是指虽然没有严格数据模型,但一般包含相关标记,用来分隔语义元素以及对记录和字段进行分层,如JSON,同一键值下存储的信息可能是数值型的,可能是文本型的,也可能是字典或者列表;非结构化数据是没有固定结构的数据,各种文档、图片、视频/音频等都属于非结构化数据,对于这类数据一般直接整体进行存储,而且一般存储为二进制的数据格式。
1.2数据安全的概念、威胁与需求
本节首先明确数据安全的概念与属性,然后归纳数据安全面临的威胁,*后从数据应用主体、数据生命周期两个维度分析数据安全的需求。
1.2.1数据安全的概念
2021年9月1日起施行的《中华人民共和国数据安全法》中第三条,给出了数据安全的定义,数据安全是指“通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力”。数据安全有两方面的含义:一是数据本身的安全,主要是指采用密码等技术对数据的保密性、完整性、可认证性等进行主动保护;二是数据防护的安全,主要是采用网络安全、系统安全等信息存储
展开