随着Web数据的不断扩充,如何从Web数据中抽取信息并融合成指导决策的情报,已成为广泛关注的领域。面向Web数据的信息抽取和融合可以通过统计、在线分析处理、情报检索、机器学习、专家系统、模式识别等诸多方法来实现上述目标。
本书是信息抽取领域的学术著作,旨在从情报检索的视角介绍面向非限定领域的Web数据分析及处理方法。本书从基本概念讲解信息抽取以及融合,涉及词、句、篇章等层面的分析和处理策略,特别是针对情报处理的需要,以“事件”为切入点,将包括中文分词、词性标注、组块划分、句法分析、*大熵模型、条件随机域模型、马尔科夫模型等各类相关的处理模型和技术融入事件抽取、事件类型及元素识别、事件信息融合等领域的具体处理任务中加以介绍,并对信息抽取及融合等领域的发展状况及代表性处理手段进行介绍。
展开
随着MUC会议的停办,美国国家标准技术研究院(NIST)组织了自动内容抽取(automatic content extraction,ACE)评测会议,它从1999年开始继续进行信息抽取方面的评测。
ACE评测从1999年7月开始酝酿,2000年12月正式开始启动。其研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等信息。目前ACE评测主要有两大任务:实体识别与跟踪(entity detection and tracking,EDT)和关系识别与描述(relation detection and characterization,RDC)。ACE评测不针对具体的领域或场景,采用基于漏报和误报为基础的一套评价体系,还对系统跨文档处理能力进行评测。