第一章信息裣索概述
第一节信息检索基础
学习目的与要求了解信息检索的类型;了解信息检索的意义与作用;熟悉各种信息检索工具;掌握信息检索的含义;掌握信息检索的原理。
一、信息检奈含义
信息检索有广义和狭义之分。广义的信息检索包括信息的存储(storage)和检索(retrieval)两个过程。信息存储是指将大量无序的文献信息集中起来,根据信息源的形式特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的工具或检索系统;信息检索是指运用编制好的检索工具或检索系统,查找出满足用户需求的特定信息。狭义的信息检索是指根据用户的信息需求,利用信息检索工具或检索系统,查找出符合用户特定需要的信息的过程。
二、信息检余类型
(一)根据检索手段划分
信息检索可分为手工检索、计算机检索。
1.手工检索利用目录、文摘、索引、题录等印刷型检索工具,查找和获取文献信息线索,进而获取原始文献。
2.计算机检索借助计算机和通信网络,利用计算机检索工具或检索系统,查找和获取其中的文献信息资源。根据其发展历程,可分为联机检索、光盘检索和网络检索。
(二)根据数据格式和检索技术的层次划分
信息检索可分为文本信息检索、多媒体信息检索。
1.文本信息检索主要包括二次文献数据库检索和全文数据库检索,前者仅能检索文献的线索(即题录)和文摘,而后者可以直接根据文献资料的内容(字、词、句、段落、篇、章及其参考文献和其他辅助信息)进行检索,支持多角度、多侧面的信息资源综合利用。
2.多媒体信息检索是以多媒体信息为检索对象的信息检索,包括图像检索、音频检索、视频检索等。
三、信息检余原理
信息检索包括信息存储和信息检索两个既相对独立又密切联系的互逆过程(图1-1)。
在信息存储过程中,专门负责信息检索系统和数据库建立的人员从各种各样的信息资源中搜集有用的信息,对信息进行主题内容分析,找出能够全面准确表达该信息主题内容的概念,借助于检索语言(通常是检索词表)把分析出来的概念转成检索系统所采用的词语(在自然语言检索系统中,直接使用自然语言而不需要转换),再按照一定的规则和方式将这些信息组织成可供检索用的数据库,并存储在一定的介质上。
图1-1信息检索原理示意图
信息检索是信息存储的相反过程。信息用户在工作、学习和生活中产生了信息需求,为了检索并获取自己所需要的信息,用户必须对自己的需求进行主题内容分析,找出能全面、准确表达该需求的主题概念,也要借助于检索语言(通常是检索词表)把分析出来的概念转换成检索系统所采用的语言(在自然语言检索系统中,直接使用自然语言而不需要转换),再按照一定的检索规则和方式,制订检索策略,构造检索式,从数据库中查找并获取自己所需要的信息,最后输出检索结果。用户对检索结果进行评价、反馈,或许还要重新制订检索策略,重新构造检索式,反复进行检索,直至检索出满意的结果。
四、信息检余工具
信息检索工具又称信息检索系统,是指累积存储文献信息并提供检索途径的工具。按照载体的不同,通常将信息检索工具划分为印刷型检索工具和计算机检索工具。
(一)印刷型检索工具
印刷型检索工具是对文献进行汇集、浓缩加工而成的纸质型检索工具,是20世纪80年代之前应用最为广泛的一种检索工具。印刷型检索工具的优点是检索方便、灵活、判断准确;缺点是检索速度受到限制,不能随时修改检索策略,也不便于实现多元概念的检索。
目前,许多印刷型检索工具已被开发成计算机检索工具,如常用的国内印刷型检索工具《中文科技资料目录》(医药卫生),创刊于1963年,由中国医学科学院医学信息研究所编辑出版,收录我国1000多种医学期刊的文献题录,是收录我国医药卫生信息资源最全的题录检索工具;20世纪80年代,被开发为《中国生物医学文献数据库》,现成为我国生物医学文献服务系统最重要的一个数据库。《中国药学文摘》,创刊于1982年,由国家食品药品监督管理局(现合并人国家市场监督管理总局)信息中心主办,收录我国700多种医药期刊的题录文摘,是一种用来查找国内药学信息资源的文摘检索工具,现已被开发为《中国药学文摘数据库》。
常用的国外印刷型检索工具有《医学索引》(如也x Medicus,IM)、《科学引文索引》(SCce Citation Index,SCI)、《医学文摘》(Excerptof Medica,EM)、《化学文摘》(CAe而Cot/ Abstract,CA)等,现在都已被开发成相应的数据库。
(二)计算机检索工具
计算机检索工具又称计算机检索系统,是用计算机技术、电子技术、远程通信技术、光盘技术、网络技术等构成的存储和检索信息的检索系统。
1.主要特点
(1)效率高:能更好地满足用户各种信息检索需求。计算机检索速度快,手工检索需数周的时间,而计算机检索只需数小时或数分钟。
(2)检索途径多:除手工检索工具的分类、主题、著者等检索途径之外,通常还提供更多更灵活的检索途径,如文本词。
(3)更新快:多为月更新、周更新,甚至日更新。
第一章信息检索概述-3
(4)数据库种类繁多:有书目数据库、全文数据库、事实数据库、数值数据库、图像数据库等。
(5)检索灵活:检索词的选择及检索策略的制订更为灵活,可利用各种计算机检索技术扩大或缩小检索范围。
(6)提供信息广泛、丰富:数据库提供的信息比手工检索工具更为丰富和广泛,除获取文献线索、文摘之外,很多数据库提供全文链接或直接提供全文。
(7)检索结果输出灵活:很多数据库允许用户任意选择若干记录和若干字段输出,可直接打印、下载或通过电子邮件的方式输出检索结果。
2.逻辑构成与物理构成
(1)计算机检索系统的逻辑构成:主要指它所包含的功能模块或子系统。一个完整的计算机检索系统通常包括以下子系统。
1)信息选择与采集子系统:根据系统的目标及服务对象的需求,连续不断地采集相关信息。
2)标引子系统:根据一定的规则和程序对文献进行分析,提炼文献的各种特征,使之成为存储和检索的标识。
3)建库子系统:建立和维护可直接用于检索的数据库。
4)词表管理子系统:管理和维护词表,支持用户进行词表查询操作。
5)用户接口子系统:承担用户与系统之间的通信功能。
6)提问处理子系统:支持用户对检索提问的处理。
(2)计算机检索系统的物理构成:主要包括以下模块。①硬件:是系统采用的各种硬件设备的总称,主要包括具有一定性能的计算机、外围设备,以及与数据处理、传送有关的其他设备。②软件:由系统软件与检索软件构成,系统软件(如数据库管理程序、词表管理程序等)主要是保障检索系统的高效运转,而检索软件是用户与系统的接口,用户通过检索软件进行检索,通常有指令式、菜单式和智能接口等类型。③数据库:是计算机存储设备上存放的相互关联的数据的有序集合。④网络:由于网络技术的发展,互联网为信息的传递提供了保障,通过互联网将各个计算机连接起来,每个计算机成为网络中的一个节点,网络上的每个节点和其终端只要授权均可对网络中的数据库进行访问,实现资源共享。
3.文献信息数据库数据库是计算机检索系统的重要组成部分。当数据库存储的信息为文献信息时,则称为文献信息数据库。文献信息数据库通常包含若干文档,每个文档包含若干条记录。记录是文献信息数据库的信息单元,每条记录均用于描述原始信息的主要特征,如一条文献记录通常有题名、著者、出处等文献特征,组成记录的这些特征或单元称为字段;而文档是数据库中部分记录的有序集合,通常依据数据库所属的学科、收录范围和时间范围划分而成,因而又称为子数据库。常用文献信息数据库类型有以下几种。
(1)书目数据库(bibliographic database):是最常见的一种文献信息数据库,其内容相当于印刷型检索工具中的目录检索工具、题录检索工具和文摘检索工具,是指引用户到另一信息源以获得原文或其他细节的一类数据库,仅提供获取文献信息的线索,如题名、作者、作者单位、出处、文摘等,并不提供全文。
(2)事实数据库(factual database):主要提供事实性资料,其内容相当于印刷型检索工具中的参考工具书,用户可直接获取所需问题的解答。如美国国家医学图书馆(National Library of Medicine,NLM)的生物医学信息机构目录联机数据库主要提供医学信息机构的名称、地址、联系电话等相关信息。
(3)全文数据库(full text database):主要提供原始文献,以期刊论文、会议文献和报纸信息为主,如中国知网(CNKI)的学术期刊库、万方数据知识服务平台的中国学术期刊数据库等。
(4)数值数据库(numeric database):主要提供数值信息,如世界卫生组织(WHO)的Global Health (全球卫生评估)数据库,提供世界各国的预期寿命、主要死亡和残疾原因等数据。
(5)图像数据库(image database):主要提供图像信息,包括解剖图像、疾病图像等,如美国国家医学图书馆的可视人计划(The Visible Human Project)、美国哈佛大学医学院的全脑图谱(The Whole Brain Atlas)、人类蛋白质图谱(The Human Protein Atlas)等。
五、信息检索的意义与作用
1.获取科学知识的最佳途径科学技术的发展具有连续性和继承性,每一位科技工作者都是在前人巳取得成就的基础上进行新的探索。通过信息检索,可以把握世界科技发展大势,掌握科技前沿,抓住科技革命方向,开展前瞻性、针对性、储备性的创新研究。只有充分占有、深度挖掘有价值的科技文献信息,才能实现关键核心技术自主可控,把创新主动权、发展主动权牢牢掌握在自己手中。
2.坚持自主创新,避免科研工作重复创新是第一动力,要矢志不移自主创新,要以关键共性技术、前沿引领技术、现代工程技术、颠覆性技术创新为突破口,敢于走前人没走过的路。同时自主创新是一种探索未知的活动,在研究工作中,从选题、研究到成果鉴定,每一步都离不开信息。只有充分掌握有关科技信息,才能避免重复,少走弯路,抢占科技竞争和未来发展的制高点。
3.提高科研效率,节省时间在当今科学研究和技术创新活动中,科研人员查阅文献资料和了解本学科同行研究工作进展信息的时间占总研究工作时间的1/2以上。据统计,科学工作者从事科研活动所花费的时间中,试验研究占32.1%,计划、思考占7.7%,数据处理占9.3%,查阅文献资料占50.9%。因此,有效的科技文献检索可以节省科研人员大量的工作时间和精力,从而极大提高科研人员的研究效率。
4.提高信息素养科技创新、科学普及是实现创新发展的两翼,要把科学普及放在与科技创新同等重要的位置。科学素质是国民素质的重要组成部分,是社会文明进步的基础。科学素养的提升主要体现在掌握科学思想,浸染科学文化,秉持科学精神,实现合理有效的决策。当前科技信息庞杂纷乱、更迭频繁。而信息素养是从各种信息源中获取、评价和利用信息的能力,是信息社会劳动者必备的技能,是科学素养的重要组成部分。一要善于运用互联网技术和信息化手段提高捕获信息能力,二要善于梳理、整合、利用大量科技信息。因此,信息素养作为一种高级的认知技能,同批判性思维、解决问题的能力一起,构成了人类进行知识创新和终身学习的基础。
5.人才培养的需要大学生是青年的中坚力量,青年是祖国的前途、民族的希望、创新的未来。青年处于人生积累阶段,需要像海绵汲水一样汲取知识。
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录