第1章 统一内容定位技术
统一内容定位(uniform content locator,UCL)技术是由李幼平院士团队在深入研究互联网信息共享方式及其语义缺失问题的基础上提出的一种全新的信息资源内容的定位方法。与统一资源定位符(uniform resource locator,URL)不同的是,UCL采用内容检索与查找的方法,从互联网海量信息库查询相关内容。目前互联网普遍采用的是将信息空间视为“按地址定位”的空间,即按信息链接存储源地址定位的空间,UCL实现了在信息内容的资源定位基础上增添语义地址。
1.1 信息网络的URL
统一资源定位符,又称网页地址,一般指统一资源定位系统,它是因特网万维网服务程序中用于指定信息位置的表示方法。URL由Tim Berners-Lee所发明,*初用来作为万维网的地址,现在已经被万维网联盟编制为互联网标准RFC 1738。互联网上的每个文件都有一个唯一的URL,它指出文件的位置以及浏览器应该如何处理这些文件。
URL给资源的位置提供一种抽象的识别方法,并用这种方法给资源定位。只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找。URL相当于一个文件名在网络范围的扩展,因此URL可以视为是与因特网相连机器上的任何可访问对象的一个指针。
典型的URL包含了四个部分:协议、服务器名称(或IP地址)、路径和文件名。协议告诉浏览器如何处理URL所指向的文件,常用的模式有超文本传输协议(hyper text transfer protocol,HTTP)、安全套接字层上的超文本传输协议(hyper text transfer protocol over securesocket layer,HTTPS)和文件传输协议(file transfer protocol,FTP)等。服务器名称是指文件所在服务器的名称或IP地址,服务器名称后面有时还跟一个冒号和一个端口号,它也可以包含服务器必需的用户名称和密码。路径部分包含等级结构的路径定义,一般不同部分之间以斜杠分隔。
绝对URL显示文件的完整路径,而相对URL以包含URL本身的文件夹位置为参考点,描述目标文件夹的位置。如果目标文件与当前页面(即包含URL的页面)在同一个目录,那么这个文件的相对URL仅仅是文件名和扩展名。如果目标文件在当前目录的子目录中,那么它的相对URL是子目录名,后面是斜杠,然后是目标文件的文件名和扩展名。
1.2 UCL定义
URL通常只能表示信息资源的位置,无法描述信息资源的语义信息,因此带来了互联网信息资源难找、难管、失序等弊端。具体而言,互联网的主要弊端表现为:有用信息不易寻找,个性需求无法满足;网上内容难以有效治理,良莠不齐,垃圾泛滥;网络导读严重缺失,舆论导向难以落实等。尽管Tim Berners-Lee 提出了语义网(semantic Web)概念,试图使Web变成能够自动理解词语、概念以及它们之间逻辑关系的智能网络,但是语义网实现起来非常困难。为此李幼平院士团队提出了UCL技术[1],从互联网中内容资源难找、难管和失序等问题的根本症结入手,兼顾了内容共享应用中的三个重要角色(读者、作者和管理者),能够有效弥补URL的语义缺失和管理缺失。
UCL是网络信息资源的一种属性与内容描述结构,它的目的是解决网络信息资源的发现、查找、识别、传输、控制和主动服务等问题。
在信息空间中,每一份多媒体文件都是一个多维矢量。矢量的模(长度)是文件字段数,矢量的方向取决于对文件内容进行精细定位的一组代码,即UCL代码[2]。UCL代码对文件内容的类别、主题、出处、时段、作者、关键词、分类代码等做出多维度的标引。读者的需求和文件的内容都用UCL矢量来表达,通过对UCL矢量的关联计算,在浩瀚的信息空间中按内容准确定位文件。
设UCL的向量表示为
其中,ui为第i个语义项;是UCL的分量数,一般与被描述对象、应用领域、传输方式、用户终端形式有关。
1.3 UCL标签
《统一内容标签格式规范(GB/T35304—2017)》已作为国家推荐标准正式发布[3]。字节(byte)是UCL标签的基本组成单位,一个字节由8位(bit)二进制数组成。UCL标签的起始字节定义为第0字节,一个字节的起始位定义为第0位。UCL标签或包的第字节的第m位(0<m<7),也称为该UCL包或域的第8n+m位。
一般地,一个UCL标签可分为前后两个部分:UCL代码(UCL code)部分和UCL属性(UCL property)部分。UCL代码部分包含多个UCL代码域,UCL属性部分包含多个UCL属性域。UCL标签也可以根据实际应用进行灵活裁剪和扩展,但每个UCL标签应包含UCL代码部分。UCL标签的格式如图1-1所示。
图1-1 UCL标签格式
UCL代码部分的基本长度为32字节,它们称为基本UCL代码。除基本UCL代码,UCL代码部分在需要时可以进行扩展,扩展部分的长度应为16字节的整数倍,称为扩展UCL代码。
UCL属性部分记录与内容相关的多个属性信息。每个具体属性称为一个UCL属性元素,每个UCL属性元素由UCL属性元素域定义。性质或功能相近的若干UCL属性元素构成一个UCL属性集合。每个UCL属性集合由一个UCL属性集合头部域和紧接其后的多个连续存放的UCL属性元素域组成。UCL属性部分的第一个域是UCL属性总头部域,紧接其后的是多个(*多16个)UCL属性集合。已定义的两个UCL属性集合是:内容描述属性集合和内容管理属性集合。
UCL属性总头部域、UCL属性集合头部域和UCL属性元素域统称UCL属性域。每个UCL属性域的格式描述按照〈属性类别,属性长度,属性净荷〉形式进行定义和组织(三个分量按序连续存放)。UCL属性总头部域和UCL属性集合头部域是特殊的头部描述信息域,若将它们作为一个单独的UCL属性域来看,则不包含属性净荷分量;但如果从UCL属性域之间的概念隶属关系来看,那么位于它们之后且隶属于它们的所有UCL属性域,都可视为它们的属性净荷数据。
第2章 基于UCL的多层网络数据语义解析技术
数据挖掘的*终意义在于帮助人们更好地理解信息。数据的分类、聚类、关联规则的发现等都是为信息解析服务的。大规模的网络数据意味着数据结构具有多维性、异构性和复杂性,如何对这些数据进行有效的解析成为巨大的挑战。对于网络数据,除了常规的一些数据挖掘方法,如何利用网络的层次关系来帮助人们进行信息的解析是值得深入研究的。网络是分层次的,数据从物理层到*终的应用层,每一层都会有强度不同的语义信息。如果仅关注网络的某一层,没有综合考虑不同网络层的信息如何为数据解析提供服务,那么对这些网络数据的语义理解就可能带有片面性,无法真正从深层次反映网络信息的内涵。
2.1 多层网络数据语义描述架构
无论是开放式系统互联协议体系还是传输控制协议/网际协议(transmission control protocol/internet protocol,TCP/IP)体系,网络数据都是具有层次结构的,每一层都有许多特定内容反映网络数据的语义特性。那么如何充分获取、利用这些信息来全面反映网络数据的语义性质呢?本书提出多层语义描述方法,研究网络数据从物理层到应用层所包含的语义信息,建立多层数据语义描述框架,针对网页数据、音/视频数据完成扩展的统一内容定位(extended uniform content locator,exUCL)语义标签定义,建立exUCL标签数据库。
2.1.1 多层网络数据语义描述模型
基于数据包的网络数据在TCP/IP网络体系结构的每一层中,都存在不同强度的语义信息。建立的多层网络数据语义描述模型(multilayer semantic description model for network data,MSDM)如图2-1所示,其中定义了弱、中、强三个语义域,体现多层语义模型与TCP/IP模型的对应关系,描述各个层次数据的语义特征。
1)弱语义域
弱语义域(weak semantic field)面向数据包进行语义描述,体现网络数据的传输特性。对应TCP/IP体系结构网络层、传输层等底层数据的语义信息,如源IP地址、目的IP地址、源端口号、目的端口号等。
2)中语义域
中语义域(generic semantic field)针对网络资源进行语义描述,对应TCP/IP体系结构应用层数据的语义信息,描述网络数据URL、数据来源、文件大小等信息。
3)强语义域
强语义域(strong semantic field)是在对网络数据内容理解的基础上进行的高层语义描述,如数据分类、标题、作者、关键字等。
不同语义域信息来源于网络不同层次结构的数据,具有不同的语义强度。利用这些信息可以提高对网络数据的解析效率。弱语义域可用于网络数据业务类型解析,主要进行IP地址和数据类型分类、过滤可疑IP地址的数据包、进行流量分析等标识;中语义域针对网络资源进行分析,了解网络资源状况、数据来源,进行流分类等标识;强语义域主要对网络数据内容进行分析,进行主题分类,信息热度、重复度等分析。
2.1.2 exUCL语义标签及语义向量空间
exUCL语义标签是进行网络数据分层语义抽取、跨层语义集成、不同强度语义相关性分析以及相关应用的基础。在多层网络数据语义描述模型框架下,定义exUCL语义标签,描述网络数据不同层次的语义内容。图2-2为网络数据exUCL语义标签基本格式。
exUCL语义标签从弱语义域到强语义域的解析过程中,网络每一层次结构产生exUCL语义标签中某个域的某个字段值。生成的exUCL标签将采用资源描
展开