第1章 背景
十八大期间,党中央提出要把“互联网+”作为“港口、海关、物流、交通”等行业发展和转型的战略技术,并为“智慧城市”的建设注入新的力量。自从2012年*批国家智慧城市试点名单公布以来,越来越多的地区加入到了“智慧城市”的建设中。2014年8月29日,经国务院同意,发改委、工信部、科技部、公安部、财政部、国土部、住建部、交通部等八部委印发《关于促进智慧城市健康发展的指导意见》,要求各地区、各有关部门落实本指导意见提出的各项任务,确保智慧城市建设健康有序推进。意见提出,到2020年,建成一批特色鲜明的智慧城市,聚集和辐射带动作用大幅增强,综合竞争优势明显提高,在保障和改善民生服务、创新社会管理、维护网络安全等方面取得显著成效[1]。在这一号召下,各地政府、各企事业单位相继开展若干项目,为智慧城市的建设出谋划策。如西安在2018年推出“掌行西安”智能停车导停系统,只要拿出手机“摇一摇”,以用户为中心,周围500米范围内的所有公共停车场站及剩余车位一目了然。
十九大以来,党中央再次重申要以“互联网”+“港口、海关、物流、交通”等方式实现重点行业从传统到智慧的转型,推动自贸试验区的建设,建立多个更智慧化的城市。在这一背景下,多地政府推出相应的措施。如上海发布《关于进一步加快智慧城市建设的若干意见》等指导文件,要求依托互联网技术和服务资源优势,推动互联网与物流运输、生物安全、交通出行等融合创新,不断优化“互联网+政务服务”;完善“一网通办”总门户功能,扩大移动端“随申办”受惠面,不断拓展各类服务场景,健全政务应用集群;将“企业服务云”作为企业服务“一网通办”重要组成,面向全规模、全所有制、全生命周期企业,加强为企服务统筹协调、惠企政策资源共享;深化跨部门协同审批、并联审批,持续完善全流程一体化在线服务平台,全力打响“一网通办”政务服务品牌,着力营造高效便捷的营商环境。另外,文件还进一步指出要重点建设数字经济示范区;规划布局新型智慧城区,加快城市智能化更新,聚焦“3+5+X”重点区域,强化智慧产城融合,推进新城高品质建设;加快推动南大、吴淞、高桥、吴泾、桃浦等整体转型区域布局数字经济新兴产业,支持各区因地制宜建设智能产业新载体。在自贸试验区临港新片区、长三角生态绿色一体化发展示范区、虹桥商务区等重点区域,打造“未来之城”示范城区和国家*新型智慧城市先导区。在文件指导下,各大高校与企业展开紧密合作。位于临港新片区的上海海事大学依靠区位优势并发挥港航物流的学科特色与上港集团合作,用多个摄像头对洋山港自动化码头的集装箱进行识别并对其“装、卸、放、提”等操作进行联合监控和跟踪,以更好地实现港口作业自动化,减少人工干预,保证物流运输的安全;再者,上海海事大学牵头联合中国科学院上海技术物理研究所、中国科学院上海应用物理研究所和南京农业大学等八家科研院所,通过多类设备检测过关物品,提取分析物品不同的特征并比对国家跨境监测综合数据库中的各类生物信息,保证我国重点保护的生物及其标本不会被非法带出国境,保护生物信息的安全。该项目对特殊生物资源流失(包括从海路和陆路)和人类遗传资源等国家生物安全关键领域,开展科技攻关,实现基础研究、共性关键技术与重大产品研发、典型应用示范的突破,推动我国生物安全科技支撑能力达到国际先进水平;进一步,上海交通大学、同济大学和复旦大学等院校与公安部第三研究所、上海市刑事科学技术研究院等公安专业研究机构联合参与公安部2017年技侦重大专项,通过多种方式实时监控并分析路况信息,以实现道路目标实时跟踪及识别等任务,保障交通出行的安全;特别地,自新型冠状病毒疫情以来,在政府牵头下,临港新片区多家高校和企业合作,利用多个设备多方位监控出入港口、海关、生活区的行人,跟踪和锁定未戴口罩者,避免疫情扩散,保障特殊时期的“智慧城市”建设。
上述案例一度成为上海建设“智慧城市”的范本。人们针对具有多个视图(表现形式或来源)的数据集,即多视图数据集,采用基于多视图学习机而设计的应用系统加以处理,取得了良好效果。比如,上海海事大学与上港集团合作,针对港航物流领域中常见的集装箱自动配载、运输、装卸等问题中的共性点,即箱号、箱重识别问题,利用多设备采样集装箱图片并深入分析特征(如箱型、箱重、箱高)、类别(如空箱、重箱)之间的关系和特点,设计基于卷积神经网络和多视图样本局部特征的箱号识别及运输跟踪系统,从而更好地提升自动化码头的作业效率,提高船舶空间的利用率,降低人工配载的次数,加快集装箱装卸、运输过程。目前该系统在上海港振东码头和洋山港自动化码头已经获得应用。据上港集团报告,识别系统通过对集装箱箱号进行识别从而锁定集装箱并对其“装、卸、放、提”等操作进行多角度的监控和跟踪,有效降低了人工成本,提高了作业效率。按照每天码头理货作业日志的统计,目前该系统的平均识别率达到97%以上,已创新高且港口作业自动化率也比往年要高;上海海事大学牵头联合上海海关、上海出入境检验检疫局等单位,通过拉曼光谱仪、X射线仪等设备多角度提取过关物品特征并研发基于信息增强的识别与检测系统。目前已经完成了对至少50%的特殊生物的自适应识别算法,并实现了出入境检测与监测报警子系统。根据在海关内部测试平台上的实验,当前算法的平均识别率为96.2%,系统的平均正确报警率为97.9%。这些结果都已高于原始系统,并将大幅度降低因人工疏忽而造成的误检漏检风险;同济大学、上海交通大学、复旦大学、上海海事大学等高校与公安部第三研究所、上海市刑事科学技术研究院等公安专业研究机构合作,设计了实时路况视频处理和融合算法,研发了用于路况监控的系统,目前正用于上海的人民广场、后滩、临港新片区等标志性地点进行实时拍摄和处理。另外,2020年新型冠状病毒肺炎疫情以来,该系统已在上海边境各重点关口铺设实施,实现严防死守,在一段时间内实现了“本土0增长”的目标。
由于在港口、海关、物流、交通等行业的早期场景中,多视图数据集结构简单固定、信息完整、规模较小,所以基于传统多视图学习机(如协同训练、多核学习、子空间学习和间隔一致性等[2-9])所设计的应用系统足以满足真实场景的需要。但随着城市化建设加快、国际贸易量剧增等因素,“港口、海关、物流、交通”等众多行业中的多视图数据集逐渐呈现出一些特殊样本形式并造成了早期系统和算法的性能变差。
第2章 主要问题
随着大数据时代的到来,多视图数据集呈现出一些特殊的样本形式。
2.1 实时产生且信息可变
随着国内外经济贸易的增长,城市化建设的加速,真实场景中的数据量日益增加。特别地,在当前信息时代中,多视图数据集(如海关实时检验数据集、优酷视频数据集、新闻数据集等)已经不可避免地普遍具有实时性和大规模性。实时性表示数据的产生是实时的。如海关工作中,过关的每一个物品都会产生X射线特征或者拉曼光谱特征,而这一切是实时发生的;又如优酷网站中,每天有很多人上传了新的视频,这一切也是实时发生的;再比如,新闻的产生也是实时的,每时每刻世界各地都发生着各种事情,媒体将这些事情通过文本、视频、音频等多种视图进行描述。大规模性就是数量多、规模大。上面所述的海关作业数据、优酷视频数据、新闻数据都是大规模的。
另外,随着时间的推移和业务的变化,数据集的信息也会发生变化,或丢弃、或保留、或新增。以特征为例,如A时刻,数据集有B、C、D三种特征,而A+1时刻,数据集丢弃特征B,新增特征E,从而具有C、D、E三种特征。一些比较典型的数据集有港口业务数据集。在港口作业中,集装箱在装卸的时候,通常具有箱重、箱号、目标国、中转国、箱型等特征。但是随着业务的变化,人们开始更加关注锁扣,则可以增加锁扣特征。由于数据集的信息包含特征和类别,除了特征信息会随着业务的变化而变化之外,类别信息也会随着业务的变化而变化。如一个数据集原本有10个类别,但是随着研究深入,发现还可以进一步把类别进行细化或归纳,则此时类别信息就会发生变化。又比如,一个数据集原本是A、B、C三个类别,但是随着业务的变化,类别数目未变,但是类别值则可以变为A、B、D,这也是一种类别信息的变化。
2.2 有效样本信息不足
有效样本信息是设计算法和系统的关键点之一。充足的有效样本信息可以更好地指导算法设计并提升系统性能。但是真实世界中,有不少数据集却总是无法具备充足有效的样本信息。
2.2.1 有标签样本数目不足
真实场景中的多视图数据集通常因频繁采样而规模巨大,但是受限于人力成本,仅有少量样本被标记了类别。人们一般把这样的样本称为有标签样本。众所周知的是,有标签样本可以提供有利于算法设计的样本信息。但是其他大部分样本没有标记类别,这类样本就是无标签样本。不同于有标签样本,这些无标签样本仅提供极少的有效样本信息,甚至可能干扰算法设计。这样的数据集非常普遍,其中港口作业数据集依然是一个非常典型的案例。每天进出港口的数据非常多,中控室也会有大量的集装箱图片需要处理,需要专门对每个图片中的集装箱进行标记,但是实际上,标记的图片占比往往不到十分之一。这就为人们处理这类数据集带来了挑战。
2.2.2 信息缺失
在现实世界中,数据的采集、处理等往往需要一定的设备和人工的参与。众所周知的是,人们每天保持高效的工作时间很有限,但是任务却通常很繁重,这很容易造成人们分神或者疏忽,比如忘记打开某采样设备。再者,许多设备是需要精心维护的,但是事实证明,不少企业无法很好做到对每一个设备进行定期维护,这就会造成部分设备处于低效工作阶段。而有时候,有些设备会受到电磁干扰,从而在采样时出现噪声。这一切*终都会造成部分采集的样本缺失一些信息。
2.3 多种样本信息之间关联复杂
多视图数据集的每个视图中存在特征(如箱型、箱重、箱高)、类别(如空箱、重箱)等多种样本信息。这些信息可以分为全局信息(含全局特征和全局类别)和局部信息(含局部特征和局部类别)。前者多用于整体描述和粗略识别,后者多用于细节描述和精细识别。这些样本信息中普遍存在多种关联信息,如类别-类别关联(不同类别之间的关联信息)、类别-特征关联(类别和特征之间的关联信息)、特征-特征关联(不同特征之间的关联信息)等。若两个类别或两个特征之间差异小、相关度高,则它们之间应存在强类别-类别关联或强特征-特征关联;若一个类别的判定只与部分特征有关,则相关的类别-特征关联应更强,其余不相关的类别-特征关联应减弱。
2.4 问题展开及本书工作
由于当前的多视图学习机主要面向“结构固定+信息完整+小规模”多视图数据集,无法对上述涉及的特殊多视图数据集进行有效处理,反而因处理失败造成真实场景中人工干预率增加,工作效率降低,阻碍自贸试验区乃至“智慧城市”的建设,所以深入研究面向特殊样本形式的多视图学习机,设计更智慧的应用系统基础框架并用于港航物流等领域,符合国家经济发展的战略需要,有利于行业的智慧化转型和革新,也有利于推动模式识别等基础领域的发展和多视图学习机的二次创新,对加快“智慧城市”的建设步伐有重要的研究意义。
就上述提到的特殊样本形式的多视图数据集而言,人们提出了一系列解决方案。
针对多种样本信息之间关联复杂的多视图数据集:复杂真实场景中,多视图数据集的每个视图中所包含的全局与局部信息普遍存在至少三种关联信息,即类别-类别关联、类别-特征关联、特征-特征关联。相关学者通过在类别之间施加相似性约束等方式来捕获类别-类别关联[10,11];通过关键字分布生成算法等方式以获取与某一类别*相关的部分特征,即类别-特征关联[12-15];通过设计相关正则化网络层等方式来反映特征-特征关联[16-19]。
针对有效样本信息不足的多视图数据集:受限于人力、设备等外界因素,真实场景中的多视图数据集经常出现信息缺失或有标签样本比重过小的现象。为了修复缺失信息,文献[20]提出基于不完整视图的多视图学习(multi-view l
展开