学习要求:(图示说明)

   1、了解机检与手检的区别;
   2、掌握查全率、查准率、漏检率、误检率四个检索参数的含义及计算;
   3、理解检索特性曲线以及逻辑组配、截词、限制等检索技术和检索策略的涵义。

 

1.1 机检与手检的异同

1.2 机检理论基础

讨论和习题

 

  有人将信息与能源和材料一道并称为当代社会的三大支柱,这决非奇谈。本世纪以来,人类创生的信息量高速增长,据估计,70年代以来全世界每年出版图书50万种以上、期刊10万种以上、专利约50万件、科技报告约90万件、会议文献10多万篇、产品样本50多万种,每年发表的科技论文总数近500万篇,并呈指数式增长,真可谓信息浩如烟海,如何从这浩如烟海的信息中找出所需信息,就成为信息检索的重任,为此,原教育部于1984年发出过“教高一字004号”文件要求在高校开设“文献检索与利用”课,10余年来,在文献检索教学尤其是手工文献检索方面已取得很大成绩,然而,自80年代以来,以缩微品、声像带、磁盘、光盘等形式记录的非纸信息急剧上升,伴随计算机进入多媒体时代、信息科技也步入多媒体发展时期,手工检索靠“手翻、眼看、大脑判断”的检索方式已难以全面适应当今信息的发展,计算机信息检索必然地提到了应用与发展阶段,以Internet为代表的全球性网络的实际应用更进一步推动了这一发展,这既是对手工检索的扩展,也是时代的需要。

  与手工检索一样,计算机信息检索应作为未来科技人员的一项基本功,这一能力的训练和培养对科技人员适应未来社会和跨世纪科研都极其重要,一个善于从电子信息系统中获取信息的科研人员,必定比不具备这一能力的人有更多的成功机会,美国报道生活新方式的期刊POV 也将交互网络检索专家作为未来十大热门职业之一,这些情况都说明了计算机信息检索越来越重要,故值得大家对这一技术予以重视。

1.1 机检与手检的异同

  先让我们看看信息存贮与能量存贮、材料存贮相比所具有的特点,可以列表比较如下:

表1.1 信息存贮与能量存贮和材料存贮比较

类别 │ 存贮方式  |  存贮载体

能量 │蓄能、转化 |水库、蓄电池、燃料(煤、油、天然气、核燃料等)

材料 │承载、保管 |场地、运载工具等

信息 │记录、复制 |纸张文献、缩微品、磁盘、光盘等

  由此决定了信息存贮及检索在方法上独具特点。

  书本式文献的传统存贮方法是图书馆文献管理法,包括图书、期刊、专利、科技报告、政府出版物、技术标准、会议论文、学位论文、产品样本、档案十大情报源的分类 存贮,由这套系统决定的手检体系使文献分类处于核心地位,文献号码或篇名、作者名等则是天然的补充要素,加上主题,构成手检时按分类、主题、号码、作者名检索的四大途径。

  机读信息则以数据库(Database)形式存贮。根据ISO/DIS 5127(文献与情报工作术语),数据库是至少由一种文档(File)组成、能满足特定目的或特定数据处理系统需要的数据集合。文档在此即是信息处理单位,按其组织方式可分为顺排档(Sequential File,也称主文档: Master File)、倒排档(Inverted File)等,前者是完整的顺序信息记录,后者则是将主文档中的可检属性抽出重排而派生出的数据记录。国际上通常根据数据库内容将数据库划分为三大类:

(1)参考数据库(Reference Database):包括书目数据库(Bibliographic Database, 又包括文摘数据库、索引数据库和图书馆目录数据库)和指南数据库(Directory Database, 又包括名录数据库、产品数据库等)。此类数据库信息一般不自足,用户从中获取信息源信息后还需进一步去查找原文。

(2)源数据库(Source Database, 在欧洲也称数据银行:Data Bank):包括数值数据库(Numeric Database)、图象数据库(Graphic Database)、术语数据库(Terminological Bank)、文本-数值数据库(Textual-numeric Database)、全文数 据库(Full-text Database)等。此类数据库数据自足,用户一般不必再查其他信息源,即可满足需求。

(3)混合数据库(Mixed Database):此类数据库兼具上两类数据库特点,如多 媒体数据库(Multimedia Database)等。

  另一种划分数据库的实用方法是分为文献数据库与非文献数据库两大类,前者以书目数据库和全文数据库为主,后者以数值数据库和术语数据库为多。

  信息被分类、编码、标识且以数据形式存入数据库后,计算机就能按电子数据方式进行处理并检索。

  为使存贮的信息能被检出,信息人员需对入存的信息进行标引(Indexing)。标引是将信息中具有检索特征的词语或标志(专业上称为索引点)抽出制成索引(Index)的过程,按技术特点,标引可分为手工标引和自动标引两大类。标引的控制一般采用词表(检索语言),词表有正控(先组)式和反控(后组)式,前者以各种分类法、主题表等为代表,后者以禁用词表、禁用单元词表等为代表。手工标引一般多采用正控词表,选取的索引点有限,故标引深度一般较低;自动标引常用反控词表,从理论上讲可以达到任意标引深度,例如,用一个由a(an)、the、of、for、from、by、to、with、and 9个虚词构成的禁用词表作为控制词表让计算机自动抽词标引,则除这些虚词外的所有词汇均可抽出作为索引点,因而制成的索引可以从多个词汇查到同一信息。

  与词表相应,索引也有先组式和后组式之分,前者包括分类索引、主题索引等,后者以关键词索引、保留上下文索引系统(Preserved Context Index System, 简称PRECIS)等为代表。

  在开始机检实体内容介绍之前,我们将机检与手检的差别作总体比较如下:

项目 手检 机检
总体特征 手翻、眼看、大脑判断 策略、查寻、机器匹配
标引及索引特点 检索点较少 检索点较多
检索时间 较慢 较快
检索要求 专业知识、外语知识、检索工具知识

专业知识、外语知识、机检系统知识

查全查准率 查准率较高 查全率较高
综合效率 较低 较高

表1.2 机检与手检比较

返回

 

1.2 机检理论基础

  信息存贮与检索是信息学中最活跃的研究分支之一,检索理论研究近年发展非常迅速,涉及的问题有:检索系统、检索策略及其设计、检索技术及其实现等。现将检索技术及其实现、检索策略及其设计和描述检索效果的参数简介于下。

(1)检索技术及其实现

  检索技术包括基本布尔逻辑组配、截词、词位限制、检域限制等。

  布尔逻辑组配是现行计算机检索的基本技术,主要通过"和(and,*)"、"或(or,+)"、 "非(not,-)"等将检索词联络起来,对A、B两词而言其AND、OR、NOT的逻辑含义用Wienn图表示是:

   AND   A and B 逻辑与。A和B都为真时,结果才为真

   OR    A or B 逻辑或。A或B中只要有一个为真时,结果就为真

   NOT   A not B 逻辑非。A为真、B为假时,结果才为真

  截词包括后截、中截、前截等。在DIALOG系统中,用?作为截词符,主要包括下列情形:

 符号    意义          实例

  ?  后截断,中截一字符  computer?; wom?n

 ? ?   后截一字符       computer? ?

 ??   后、中截二字符     act??; encyclop??dia

 ???   后、中截三字符     computat???

  词位限制可以是相邻若干词、在同一句中等,DIALOG系统所用位置算符例如:

     用法         意义

A(nW)B    A、B两词相隔n词且前后次序不变符合检出要求;n=1时即A()B

    A(nN)B   A、B两词相隔n词且前后次序不限符合检出要求;n=1时即A(N)B

    A(s)B    A、B两词只要在同一子字段中就符合检出要求

  检域限制可针对特定年代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符,对DIALOG系统而言,前缀限制符例如:

  AU= 限查特定作者

  JN= 限查特定刊名

  LA= 限查特定语种

  PN= 限查特定专利号

  PY= 限查特定年代

  后缀限制符例如:

  /TI 限在题目中查

  /AB 限在文摘中查

  /DE 限在叙词标引中查

  后面在具体应用上述技术时还会详述。

(2)检索策略及其设计

  检索策略是对检索的全面策划,在操作上主要指数据库的选择和检索式的编制,前者取决于现有的数据库资源,后者则反映检索目标。

  由于检索策略在机检中具有决定检出结果的重要地位,故编制和调整检索策略意义极其重大,其一般程序是:1)确定检索词和截、位关系;2)组配成式并优化;3)实检和反馈调节.

  例如, 对“微藻生长因子”这一课题来说,检索策略可编为:

    (algae+algal+microalgal) * growth()factor? ?

  实检后调整(考虑提高检准率)、优化(低频词和关键词前置)为:

    (microalgal+algae+algal)(s)growth()factor? ?

    (microalgal+algae+algal)(3n)growth()factor? ?

  又如,对“图象理解专家系统”这一课题,检索策略可编制为:

    IMAGE()UNDERSTAND???*(EXPERT()SYSTEM? ?+ARTIFICIAL()INTELLIGEN??)

(3)描述检索效果的参数

  主要有:查全率(recall factor)、查准率(也称适中率,Pertinency factor??) 、漏检率(omission factor) 、 误检率( 也叫检索噪音, noise factor)以及新颖率、检索速度等。

  设n为检索系统中文献总量,m为检索输出的文献量,a为n中与检索课题有关的文献量,b为m中与检索课题有关的文献量(检准文献量),则n、m、a、b之间的关系如图1.1所示。

 

图1.1 文献总量与检出文献之间的关系

  令R表示查全率、P表示查准率、M表示漏检率、N表示误检率,则R、P、M、N定义如下:

  R=b/a*100%   
  P=b/m*100%   
  M=(1-b/a)*100%=100%-R
  N=(1-b/m)*100%=100%-P

  最理想的检索效果是M、N均为0,即R、P均为100%,但实际上这是不可能的。

  实验表明:R和P之间存在相反的相互依赖关系,即提高R会降低P,反之亦然,如图1.2检索特性曲线所示。

 

图1.2 检索特性曲线

  有人认为:在物理、技术科学信息检索范围内,P提高1%将导致R降低3%。实践经验证明:在现代科技信息检索系统中,R为60-70%,P为40-50%。同时,检索特性曲线还与文献专业特点有关,例如在具体概念为主、对象描写明确的化学等专业中,产生误检较少,特性曲线向右移;而在抽象概念多的心理学等领域中,特性曲线则向左移。此外特性曲线还与对查出的文献适用性的评价有关,若评价标准严格,则曲线编左;反之,曲线偏右。

  对于检索来说,漏检是影响检索质量的最主要因素,故必须将M 降低到最低限度;误检会降低检索的效率,也会影响检索质量。因此,任何检索工具和检索系统必须力争克服漏检(必要条件),同时尽量避免误检(充分条件)。

  至于新颖率和检索速度,则可定义如下:

        能检出的最近单位时间内发表的文献量 

    新颖率=─────────────────×100%  

         最近单位时间内发表的文献总量 

          检索输出的文献量(m)

    检索速度=───────────           

          检索所用时间(t)

 返回

 

讨论和答疑

1、手工检索与计算机检索的典型差异是什么?  手工检索的特征是手翻、眼看、大脑判断,计算机检索的特征是检索提问、策略编制、机器匹配,后者的效率远高于前者。

2、检索策略、截词和限定等技术的主要功能是什么?  检索策略本身是用布尔逻辑算符连接起来的字符串,其主要功能是表达较复杂的检索提问;截词技术的主要功能是扩大检索范围;限定技术的主要功能是缩小检索范围。

3、四个检索评价参数的适用条件是什么?  适用于内涵清楚的机检系统。

习题

(航空? + 航天?) * 发动机? * 设计? * 制造? 1、请为检索课题"航空或航天发动机的设计和制造"编制检索策略。

  依题意知检准文献b = 30,检索输出文献 m =60,实有相关文献 a = 50,故查全率R = b/a = 30/50 = 60%、查准率P = b/m = 30/60 = 50%、误检率N = 100%-P =50%、漏检率M = 100%-R = 40% 。2、 在一个具有1000篇文献的试验性机检系统中检索某课题,用一特定检索策略查该课题时输出文献60篇。经分析评估,发现该系统中共有该课题相关文献50篇,检出的文献中实际相关文献只有30篇,求查全率、查准率、误检率和漏检率。

答疑及咨询