2024年2月9日发(作者:)
第三章网络信息检索工具
【知识框架】
信息检索的一般流程
网络经贸信息资源的概念与类型
网络资源查询方法及检索工具
按检索机制分:
目录型(Subject directory, catalogue)
索引型:搜索引擎(Search Engine)
混合型(Hybrid tools)
按检索内容分:
综合型
专题型
特殊型
按包含检索工具数量分:
单一型(Singular search tools)
集合型(Collective search tools):元搜索引擎(Metasearch Engine或Megasearch Engine
目录型检索工具(Subject directory catalogue)
搜索引擎(Search Engine)
单一搜索引擎
集成搜索引擎
检索工具的工具——指南类检索工具和元搜索引擎
(一)网络资源指南(Resource Guide)
也称学科门户SIG
(二)元搜索引擎
集合式搜索引擎、索引式搜索引擎
(三)手工检索工具的“工具书指南”、网址簿
网络版参考咨询工具(Reference Tools)
智能搜索代理和搜索软件
补充教材第二章:
检索工具与语言
检索策略
【主要内容】
1、信息资源检索的一般流程
分析问题
问题分类
分析已知和欲知信息
分析需求主题
广泛利用文献
选择检索范围
选择检索工具
熟悉各种检索工具
从检索工具中查找所需信息
获取原文
2、网络信息资源的概念和类型
1)按传输方式分:
WWW
FTP
Usenet/Newsgroup
LISTSERV/Mailing List
Telnet
Gopher
WAIS
2)按内容加工
一次加工信息
网上图书、期刊、报纸、专利、政府出版物、会议资料等
二次加工信息
文摘索引数据库、搜索引擎、网站导航等
三次加工信息
百科全书、手册指南等参考型网站
3)格式与后缀
3、网络检索工具的分类
按检索机制分:
目录型(Subject directory, catalogue)
索引型:搜索引擎(Search Engine)
混合型(Hybrid tools)
按包含检索工具数量分:
单一型(Singular search tools)
集合型(Collective search tools):元搜索引擎(Metasearch Engine或Megasearch Engine
4、目录型检索工具(Subject directory catalogue)
1)网络资源目录
这是一种独立型检索工具,网站自身包含可检索的数据库。网络资源目录又称网站目录、分类站点目录、专题目录或主题指南、站点导航系统、主题词典型检索工具等。这是一种将网络资源搜集后,按某种分类法进行组织整理,并和检索法集成在一起的信息检索方式。
特点:
人工设计和编制的、供检索的等级结构式目录(指南、导航系统)
所收录资源经过鉴选和组织
减少了检索中的噪音,提高了检索的准确性
数据库的规模相对较小
新颖性不强,(会有“死链接”dead link)
用户要熟悉其分类体系
目录型检索工具比较适合于查找综合性、概括性的主题概念,或对检索准确度要求较高的课题
原理:
网络资源目录一般:
采用人工方式采集网络信息;
通常以某种分类体系为依据,将网络信息资源分为若干领域的主体范畴,然后再细分为各学科专题目录。
网络资源目录的分类通常采用主题分类法、学科分类法、体系分类法。一个网络资源目录包括许多层,第一层是总目录,将网络资源分成若干领域的主题范畴,然后链接到第二层专题目录,再链接到第三层子目录,依次而下,直至具体的信息资源,形成一个由信息链组成的树状结构。
有代表性的目录型检索工具:Yahoo 分类目录检索;开放目录项目(Open Directory
Project ,简称ODP);
5、搜索引擎(Search Engine)
特点:
- 收录、加工信息的范围广、速度快;
- 检索功能强,一般可称为网络资源的关键词索引;
- 检索时直接输入关键词或词组、短语,无需判断类目归属,比较方便;
- 标引过程缺乏人工干预,准确性较差
- 检索误差(噪音)较大
搜索引擎适合于检索特定的信息,及较为专、深、具体或类属不明确的课题
工作过程:
单一搜索引擎的结构一般由三部分构成:信息采集、索引数据库、用户检索。用户所熟悉的只是占搜索引擎很小部分的人机交互界面——用户通过这一界面输入需要检索的信息,系统则反馈给用户相关的信息。构成搜索引擎主要内容的是不为用户熟悉的后台部分,即作为搜索软件程序的“Robot”、“Crower”、“Spider”。这类程序能自动地在网上漫游,从一个或一组URL开始访问,并进行本地索引,同时记录该URL所指的HTML文件中所有的新的URL链接,不停地以找到的URL为起点进行本地索引,直到再没有满足条件的新的URL地址或超出了某些限制。
自动采集信息是搜索引擎的主要功能。自动索引程序要对HTML文档中的超文本标记进行分析,提取出符合用户需要的主要内容,并存放在信息库中。这些软件会定期或不定期地拷贝所访问的国际互联网主机的内容,然后由提供检索服务的公司或单位统一进行标引和组织。
自动索引程序将采集和标引的信息汇集成索引数据库,并随时顺着链接跟踪网上新加入的主页,为其建立索引,这是搜索引擎提供检索服务的基础。
不同检索工具的数据库一般根据各自的信息资源采集的范围和侧重点设计而成,分类体系差别较大,没有统一的、严格的标准,收录的范围不一样,规模也不一样。数据库收录的内容一般有:网站的名称、标题、网址URL、网页的长度、相关的超文本链接点、关键词、内容简介或摘要等。
工作原理:
搜索引擎通常使用两种技术实现信息检索。
一是使用网站分类技术,即把网站进行树状的归类,对每个网站都有简略的描述(如雅虎)。
其优点是为网络信息导航带来方便;
缺点是这种描述不能深入到网站内部,造成信息丢失。
• 二是使用全文检索技术,全文处理的对象是文本,通过网页抓取程序对大量网页数据建立由字(词)组成的倒排索引,以便使用户用关键词对文档进行查询,系统则返回含该关键词的网页。
6、单一搜索引擎的结构
单一搜索引擎的结构一般由三部分构成:信息采集、索引数据库、用户检索.
7、检索工具的工具——指南类检索工具和元搜索引擎
1)网络资源指南(Resource Guide)
网络资源指南,一般被称为指南类检索工具, “网络检索工具的工具”,是为用户筛选质量好、效率高、符合需求的网络检索工具,并指出检索途径和方法的网络指南。
特点:网络指南多为大范围的网络链接,一般不直接提供检索结果,但却为人们检索其他各类网络信息提供重要的检索入口。这类指南可以克服搜索引擎检索结果杂乱的弱点,通过对网络专业信息资源的挖掘、采集、加工、整理和序化重组,形成一个专门为专业用户服务的信息资源指南,使检索更为系统、有序、快捷。这类指南使用的名称也多种多样,如虚拟图书馆的“咨询中心”、资源链接中心、资源索引(Resources Index)等。
2)学科信息门户
学科信息门户,亦称门户网站、信息门户 (Subject Information Gateway),是将特定学科领域的信息资源、工具和服务集成为整体,为用户提供可靠的网络学科信息导航、方便的信息检索和服务入口。
作用:
通常为用户提供对因特网上信息和应用的“密集”访问方式,将来自不同信息源的信息集中在一个页面上,帮助用户通过统一的入口检索不同网站的信息,而无需逐个访问单独的网站。这种信息组织方式,再加上个性化服务和各种附加服务(如公共信息、邮件、信息订阅等),逐渐演变成为网络信息检索的又一高质量工具。
特点:
1)在线提供对若干站点和文档的链接;
2)通过人工筛选信息;
3)智能地产生包括注解和评论在内的内容描述信息(如元数据),有的提供信息的分类和主题标引;
4)智能地构建分类浏览结构;
5)支持手工构建单个信息资源的(书目)元数据。
与搜索引擎的比较:
学科信息门户:
主要不是通过自动化手段来获取和组织信息,而是采用人工选择和标引保证信息的质量,使之在数量上少而精;
在信息组织上采取分类浏览结构;
在检索手段上不仅支持传统的基于数据库的字段检索、截断检索等功能,还支持在主题词表、后控词表支持下的智能检索.
3)元搜索引擎
元搜索引擎又称为集合式搜索引擎、索引式搜索引擎,它将多个搜索引擎集成在一起,并提供一个统一的检索界面。当用户发出检索请求后,通过转义在多个单一搜索引擎中查询,对查询结果进行处理(归并、删除重复、校验连接、按相关度排列结果),然后返还给用户。换言之,这是一种“引擎的引擎”,或“引擎指南”,使用户能在更广的范围内,更方便快捷地进行检索。
这类搜索引擎的代表是WebCrawler、InfoMarket等 。
元搜索引擎的类型:
元搜索引擎可分为三种类型:搜索引擎目录、多元搜索引擎和多元搜索引擎的其他衍变形式。
搜索引擎目录
这是一种采用关键词检索、非独立型的检索工具。
它把主要的搜索引擎集中在一起,并按类型或检索问题编排组织成目录,帮助用户根据需要来选择适合的搜索引擎。搜索引擎目录集中罗列检索工具,使用户能方便地选择相应的工具进行检索,检索的还是某一搜索引擎的数据库,与普通单一搜索引擎的检索是一样的。
常用的搜索引擎目录有ALL-in-one、CUSI、iTools!、悠游、北极星等;
还有:iTools: /;百度常用搜索导航:/life/;
多元搜索引擎
这也是一种采用关键词检索、非独立型的检索工具。多元搜索引擎将多个搜索引擎集成在一起,提供一个统一的检索界面,并将一个检索提问同时发给多个搜索引擎,同时检索多个数据库。用户输入检索式后,检索工具将其译码,将检索式同时传送到几个搜索引擎,再将检索结果统一汇集整理后提交给用户。
较有代表性的元搜索引擎:
Dogpile:
Metacrawler: /
:
万纬搜索: /
多元搜索引擎的其他衍变形式
(1)“一站式搜索引擎”(one-stop search engine)没有多元搜索引擎的调度机制和显示机制,因此不能综合显示结果。在编制原理上它与网络资源目录的原理
极为相似,在一级标题下列出二级标题,甚至三级标题。用鼠标点击各级标题得到搜索该主题的搜索网页或网站,然后再根据网站的检索原理进行检索。这种检索工具除可采用标题检索外,还可以使用关键词进行检索。
这类检索工具主要有:
Web-search( )、
( )、
( )等。
(2)链接多个搜索引擎的搜索引擎的工作原理是用户在检索框中输入检索式后,检索式同时在几个搜索引擎上运行,然后在一祯屏幕上显示出在几个搜索引擎上检索的结果。与上述多元搜索引擎不同的是,它不是利用显示机制综合检索结果,而只是列出搜索引擎的名称及网址,并在搜索引擎下列出检索结果。这类检索工具有:Dogpile ()等.
8、网络版参考咨询工具(Reference Tools)
书目类检索工具有报道出版信息的出版商网站、在版书目数据库、出版在线;报道文献收藏信息的数字图书馆目录、联机目录。仅中国国家图书馆的书目类检索工具就有国家书目数据库、中国数字图书馆书目数据库、民国时期中文图书书目数据库、民国期刊书目数据库、中文报纸书目数据库、善本目录数据库等。
论文类检索工具包括以定期连续发行、及时记录与通报报刊论文为主的索引、文摘、专科书目、网络版的期刊篇名数据库等,以及会议录书目、会议录索引、学位论文索引及文摘。
9、智能搜索代理和搜索软件
1)搜索代理
智能搜索代理是另外一种检索互联网信息的工具。它对用户信息需求、偏好进行甄别、归纳、总结,分析用户的兴趣爱好,并借助学习好的规则,自动、独立地代理用户查找其感兴趣的信息。
特点:
第一,智能性。具有丰富的知识和一定的推理能力 ;
第二,代理性。在功能上是用户的某种代理,它可以代替用户完成一些任务,并将结果主动反馈给用户 ;
第三,移动性。可以在网络上漫游到任何目标主机,并在目标主机上进行信息处理操作 ;
第四,主动性。能根据用户的需求和环境的变化,主动向用户报告并提供服务.
比较成功的智能搜索代理有WebWatcher、Letizia、365agent网站的“情报通”等。
2)搜索软件
搜索软件的最大特点是可以同时启动Internet上的多个搜索引擎进行搜索,在这个意义上,它与元搜索引擎的功能相似,但这类软件不提供在线服务,而是通过下载并安装在本地计算机上运行,故又称为桌面元搜索引擎或软件式搜索引擎。
另外一个特点是安装和使用不复杂,用户在个人计算机上就可以实现,并且可以自定义检索时运行的搜索引擎集合,以实现对多个搜索引擎的并行搜索。
再次,搜索软件往往具有重要的后期处理功能。
补充:教材第二章 信息检索的基本知识
1.检索工具【p36-41】
工具书的分类:2大类,14小类
所谓工具书是专供查找知识信息的文献。它系统汇集某方面的资料,按特定方法加以编排,以供需要时查考用的文献。
工具书的类型
• 二次文献:提供线索的指示型检索工具
书目、馆藏目录
索引
文摘
工具书指南
• 三次文献:提供具体信息的参考型检索工具
词典 引语工具书
百科全书、类书、政要
传记资料、手册、机构名录、地理资料
统计资料、年鉴、表谱图册、政府文献
1)书目
书目是指一批相关文献的记录,其基本功能是反映某一地区、某一时期在某一领域中出版物的信息。
是馆藏书目或联合目录的补充工具。
• 描述性书目
• 评论性书目
• 注释性书目
书目的分类(p125-127)
• 按照书目的编制目的和社会职能:登记书目、同胞书目、参考数据、推荐书目、书目之书目等
• 按收录内容与范围:综合性书目、专科书目、地方文献书目和个人著述目录
• 按时间:现行书目、回溯性书目、预告书目等。
2)索引
索引是揭示文献内容出处、提供文献查考线索的检索工具。
• 篇目索引:以篇为检索单元,对于研究某一专深领域或希望得到最新资料的用户价值大。
期刊索引
报纸索引
会议录索引
文集索引
• 内容索引:附在专著或年鉴、百科全书等工具书之后的书后索引,微观,按主题词、人名、地名、时间、概念等内容编排。
3)文摘
文摘是一种既揭示文献外部特征,又通过摘录文献要点报导文献内容的检索工具。
• 指示性文摘:主题、研究方法、结论、用途、参考价值
• 报导性文摘:内容、观点、方法、设施
• 文科还采用描述性文摘。
• 按编写目的,可分为普及性文摘和学术性文摘。
• 按编写方式,可分为题录式文摘、指示性文摘和报道性文摘。
• 按出版方式,可分为报刊式文摘、附录式文摘和卡片式文摘。如:《化学文摘(CA)》、《科学文摘(SA)》、《中华文摘》 、《经济参考文摘》等。
4)字典、词典(Dictionary)
是汇集各种语言中的字词及短语,分别给予拼写、发音和词义解释等项信息,并按字顺组织起来方便读者随时查检特定词语信息的语言工具书。
• 语言词典,传记词典、地名词典及各个学科的知识词典。
• 语文词典、专科词典和综合词典。
5)年鉴:(Yearbooks/Annuals and Almanacs):
是逐年出版,提供相应年份内各行现行资料的工具书。常有幸被称为“微型百科全书”。既是各类动态性资料和实事、数据的综合性查考工具,也是编制百科全书类工具书的基本信息源。
6)百科全书Encyclopaedia
百科全书是一种重要的知识密集型工具书,它总结和组织了世界上累积的知识,是百科知识的汇总。是一种理想的参考工具书。要查以下问题,就会利用百科全书,如:概念、定义、背景性材料、人物传记资料、地名、组织机构、规范材料、图像材料、事件、活动、奇特事务等一般事实性咨询问题。
7)手册(Handbook/ Manuals):
以简明、缩写方式提供专门领域内基本的既定知识和实用资料的工具书。便于查检专门知识与具体实用资料。常以叙述和列表或图解方式来表述内容,并针对某一专业学科或专门部门,收集相关的事实、数据、公式、符号、术语以及操作规程等专门化的具体资料。手册可分为综合性和专科性两种。
8)图录表谱Tables
图录是以图像揭示事物的工具书,表谱是以编年或表格形式记载事物发展的工具书。图录表谱的主要特点是直观形象和简明清晰。
2检索入口
文献特征:外表特征{题名、著者、序号};内容特征{分类、主题、关键词}
3.检索语言
自然语言与规范语言。
分类语言与主题语言。
直接以代表文献内容特征和科学概念的概念词作为检索标志,并按其外部形式组织起来的一种检索语言。
【习题】
一、单项选择题
1. 5.Alta Vista属于哪种搜索引擎:( )
A. 单一搜索引擎
B. 索引搜索引擎
C. 网络搜索软件
D 引擎的引擎
2.对一批相关的图书报刊进行著录,并按一定的次序编排而成的登记、报道和宣传书刊文献的检索工具是:( )
A. 书目
B. 索引
C. 文摘
D. 期刊
3.CNKI可以提供下列哪些检索途径 ( )
A.文献外表特征(刊名、作者、ISSN)、
B.文献内容特征(分类、关键词、主题词)
C.中文摘要
D.引文索引
E.A、B & C
* 4.“元搜索”就是: ( )
A.基于模式的概念,允许对某种特性的文本片段进行检索
B.利用元搜索引擎先对综合性搜索引擎进行主题相关的检索,再分析返回的页面
C.从已经组合好的文档集中检索出信息
D.沿着一条条链,从一个视图切换到另一个视图的操作
*5. 元搜索引擎是指:( )
A. 网络蜘蛛
B. 信息索引程序
C. 用全文检索技术实现的搜索引擎
D. 网络指南
E. 将多个搜索引擎集成在一起,并提供一个统一的检索界面的搜索引擎
6.下列不属于搜索引擎目录的是:( )
A. ALL-in-one
B. 悠游
C. 新浪
D. iTools!
E. 北极星
7. 检索的一般程序为:( )
A. 分析问题、选择检索工具、确定检索入口、获取原文
B. 选择检索工具、确定检索入口、分析问题、获取原文
C. 分析问题、确定检索入口、选择检索工具、获取原文
D. 选择检索工具、分析问题、确定检索入口、获取原文
E. 确定检索入口、分析问题、选择检索工具、获取原文
8.对一批相关的图书报刊进行著录,并按一定的次序编排而成的登记、报道和宣传书刊文献的检索工具是:( )
A. 书目
B. 索引
C. 文摘
D. 期刊
9.以原文为基础浓缩而成的摘要称为:( )
A. 题录性文摘
B. 报道性文摘
C. 指示性文摘
D 专业性文摘
10.下列属于文献外部特征的是 ( )
A. 分类
B. 主题
C. 关键词
D. 题名
11.WWW的超链上,用户的浏览顺序和所到站点完全由自己决定,这一特性称为:( )
A. 超文本系统
B. 交互性
C. 分布式
D. 动态性
12.以提供文献内容梗概为目的,不加评论和补充解释的工具是:( )
A. 书目
B. 索引
C. 摘要
D. 年鉴
13.检索公司及产品信息一般选用哪种检索工具:( )
A. 企业名录
B. 索引
C. 文摘
D. 年鉴
14.将报刊书籍中某些重要的有意义的信息按一定方式编排,并注明出处,以供检索的工具是: ( )
A. 摘要
B. 手册
C. 书目
D. 索引
15.可以描述文献之间内在关系的索引是:( )
A. 书评索引
B. 文集索引
C. 引文索引
D. 期刊索引
16.与传统联机检索相比,哪一项不属于Internet的优势:( )
A. 交互式作业方式
B. 系统透明度较高
C. 信息检索空间可拓宽
D. 安全有保障
17.以下哪项不属于文摘的作用:( )
A. 通报最新科学文献
B. 节省阅读时间
C. 引导检索原文
D. 多途径提供更深层次的信息
18.揭示文献的主要内容和基本观点的文摘是:( )
A. 题录性文摘
B. 报道性文摘
C. 指示性文摘
D. 专业性文摘
19.下列哪一种属于单一搜索引擎的一般结构:( )
A. 索引数据库
B. 信息采集、索引数据库、用户检索
C 用户检索
D 信息采集、索引数据库
E 索引数据库、用户检索
20.WWW把信息放在不同的站点上,这一特性称为:( )A. 超文本系统
B. 交互性
C. 分布式
D. 动态性
二.多项选择
1.以所需文献的内容特征为依据的检索入口途径主要包括(A 著者途径
B分类法途径
C主题法途径
D关键词法途径
E 标题途径
( )(( )
) )
2.光盘检索的优势是( )( )( )( )
A检索系统配置简单
B检索费用低廉
C系统操作和检索步骤比较简单
D更新快
E联机检索前进行预检和用户培训的有用工具
3.书目按照收录内容与范围分类,可以为( ) ( ) ( ) ( )
A综合性书目
B专科书目
C地方文献书目
D登记书目
E个人著述书目
4.单一搜索引擎的结构一般由以下三部分构成. ( )( )(A 信息采集
B超文本系统
C索引数据库
D用户检索
E路由器
5.以下搜索引擎属于元搜索引擎的是( )( )( )( )
A WebCrawler
B北极星
C AltaVista
D Yahoo!
E Cyber411
6.主题法的显著特点在于下列三个方面 ( )( )( )(
A系统性
B快捷性
C专指性
D直接性
E集中性
7.文摘的作用主要有( )( )( )( )
A通报最新科学文献
B节省阅读时间
C引导检索原文
D 揭示学科间交叉和渗透的关系
E能获得因语言障碍无法得到的科学文献
三.匹配题
)( )
)
1. Internet采用了层次型结构的命名机制 ( )( )( )( )
rec 1)用于网络支持中心
edu 2)用于军事部门
net 3)用于娱乐休闲机构
mil 4)用于教育部门
2.网络传输协议指定访问所需文档时使用的协议,有几种形式:( )( )( )( )
1)访问web服务器
ftp:// 2)使用文件传输协议连接到FTP服务器上
telnet:// 3)访问本地计算机中的文件
file:// 4)使用远程登录协议启动一个会话,访问某台主机
3. 工具书的书名、目录、版权页等信息可以帮助我们了解工具书:( )( )( )( )
书名、副书名 1)用来了解改编和材料更新的时间
出版者项 2)了解工具书的结构
版权期和重印期 3)用来判断工具书的权威性
目录 4)用来了解工具书的编撰目的和收录范围用来
4.以下网络信息获取方式属于哪一种用户行为:( )( )( )( )
从已经组合好的文档集中检索出信息 1)航行
检查返回的结果,然后选择某个返回项 2)浏览
沿着一条条链,从一个视图切换到另一个视图的操作 3)查看
随意的、无指导的对信息结构的探查 4)选择
四.名词解释
*1. 元搜索引擎
*2. 主题检索语言
*3 桌面元搜索引擎
*4 智能搜索代理
5 单一搜索引擎
6.网络资源目录:
7.学科信息门户
8.超文本
五.简答题
*1.请简述搜索型检索工具的特征和作用。
*2.简述学科信息门户的信息组织特点。
*3.简述搜索引擎目录的工作原理。
4.请举例简述目录型检索工具的特征。
5. 搜索引擎通常采用哪两种技术实现信息检索?
6.作为一种网络信息检索工具,学科信息门户与搜索引擎有什么不同?
7.通过企业名录能获得哪些市场信息?
8.按检索机制分,网络信息检索工具有哪些类型?
9.学科信息门户的信息组织方式及其作用。
六.分析题
1.请解释单一搜索引擎的检索原理。
2.智能搜索代理有什么特点?
*3.解释两种类型的元搜索引擎及其作用。
4.论述学科信息门户作为一种网路信息检索工具的特点及其作用。
5. 请举例解释网络资源指南类检索工具。
6. 描述两种类型的元搜索引擎及其在搜集市场信息中的作用。
7.智能搜索代理有什么特点?


发布评论