2024年2月9日发(作者:)
网上搜索的方式和技能
咱们已经知道网上有多种多样的教育资源,从技术上讲,它们是在Internet的多种服务功能的支持下实现的,包括WWW、e-mail、Usenet、FTP、BBS等,其中发展最快,也是最为流行的是WWW。因此咱们着重介绍WWW信息的检索方式。
据1999年末的统计,网上大约有15亿个网页,而且以天天增加190万个网页的速度在增加,到2021年已达到80亿个网页。要想在这么大的一个资源库中查找一条具体的信息,犹如大海捞针一般。因此,有人发出这样的感叹:"咱们淹没在数据资料的的海洋中,却又在忍受着知识的饥渴"。
此刻出现了许多种在网上查找信息的方式。这些方式可以分为两类:一类是有既定目标的查找,一类是没有目标的查找,而后者往往是指一种网上"冲浪"游戏。在具有既定目标的情况下,若是已有信息线索,可以用阅读器航行的办法寻觅信息对象;若是信息线索未定,则需要利用搜索工具首先取得信息线索。
搜索工具又有传统工具和现代工具之分。传统工具是在索引数据库中进行主题树/目录检索或KWDSEs(关键词搜索引擎)进行建设而索引库的建设是一个极为繁重的任务,此刻已经可以利用"机械人"程序来帮忙,它们通过跟踪最新成立的HTML网页的URL对整个网络进行阅读,可以在网上从这一个网站爬到另一个网站,并记录下它们访问过的网页的各自特征(这种只有十来年历史的搜索技术就被称为传统工具了,你感觉奇怪吗?)。而现代搜索工具是利用智能代理来工作,它们不是对整个网络进行索引,而是在接到一个新任务时就动身,去搜索网上资源并提取有价值的信息。因此,智能代理是利用神经网络技术进行搜索,它试图去发现自然语言与样本网页的模式及它们之间的彼此关系,这些将与新近发现的网上资源相匹配,最后以一串网址的形式供用户访问。图2_3_10显示了网上信息检索工具的选择方式。
(一)搜索工具
在Internet上现有的检索工具成百上千,比较普及且功能较强的就有几十种。这些检索依照其工作原理的不同,可能可以分为3种类型:
1.主题目录
主题目录有时也称为主题指南,什么是主题目录呢?让咱们打开雅虎中国网站来看一看。在网页首页的中部正是雅虎自概念的一级主题目录,其中一个类目就是"教育"。若是咱们点击"教育"将会看见其下一级类目,若是接着点击其中一个子类目,还可以进入更下一级类目,直到某一个具体网站或网页。
主题目录是依照品级排列的主题类索引,排列的方式有字母顺序法、时间顺序法、地址法、主题法等等,或是各类方式综合利用。主题目录能让用户通过主题阅读Web站点列表检索相关信息。
主题目录主如果依托图书馆和信息专业专家对已知的网站按照其主要内容进行挑选、组织和评论,从而编制的品级式的主题目录。有时也允许网站拥有者对他们自己的网站加以归类或进行类别描述;有的网站则干脆邀请随机的网站访问者来对网址进行分类。这些主题目录以超文本链接的方式将不同窗科、专业、行业和区域的信息依照分类目录的方式组织起来,类目之间依照品级系统排列,然后将待收录的网页与相应的类目或主题相连。这样,用户就可以够通过主题目录的指引,在相应的品级结构中逐层阅读,直到找到与自己的需求相关的信息。
目前以主题目录为核心,而且收录网络信息较多的网站有雅虎中国l、图书馆员索引、信息开采等。
由于主题目录要由人工编制和保护,在信息的搜集、编排、HTML编码和信息注释等方面要花费大量的人力和时间。人工干与虽然减少了主题目录下不切题结果的可能性,但也往往会造成某一主题下的站点不够多、不够全面的缺点。同时由于Internet上网页数最庞大而且在不断转变,所有的主题类别都要能跟上站点内容的发展,也很难办到,所以碰上部份站点为"死链"或已通过时也就不奇怪了。
整体而言,主题目录特别适宜于一般性的、比较笼统的主题的阅读和检索。其品级式分类令用户可以自由选择检索范围,而且从大到小的范围逐级阅读也十分方便。可是利用主题目录很难检索到较为专业的信息,且由于人类的分析判断带有主观性,网址分析归纳者的网站分类方式也不必然与用户的需要相适应。若是思路可巧与网址分析归纳者的思路合拍的话,这些主题目录可能会对用户有庞大的价值;但假设情况相反,用户则会感到它们牵强而
且不可捉摸,精心分析和归纳的数据与实际需求风马牛不相及。在许多时候,用户需要的信息会分散在好几个不同的主题类别下,用户容易错过交叉有关的信息。另外,不同的网站提供的主题目录的分类和结构不尽相同,用户有时要找到适合的类别也有相当的难度。
2.搜索引擎
搜索引擎的大体概念出现于20世纪20年代,但真正发展和应用却是20世纪90年代的事情,特别是在90年代中期取得快速的发展。搜索引擎一般包括两大核心技术:自动网页搜索技术和全文检索技术。
目前取得普遍认可而且功能较壮大的、以搜索引擎为核心的网站很多,例如:
•AltaVista •Excite •lycos •Google:,而不是人工编制。其大体工作可分成以下3个方面。(l)首先搜索引擎派出网页搜索工具如spider(蜘蛛)在Internet上搜索信息,并把信息带回搜索引擎;(2)将信息进行分类索引,成立网页数据库; (3)通过Web服务器端软件,为用户提供阅读器界面下的信息查询。
对用户来讲,搜索引擎的可见部份就是它的用户界面。当用户在输入框中输入需要查询的关键字,点击"查询"之类的启动按钮后,搜索引擎就会利用必然的检索算法从网页数据库中找出与查询关键词相匹配的相关记录,并以列表的方式显示给用户。固然,不同的搜索引擎其检索算法也不必然相同。
一般搜索引擎不仅提供键入一个或多个关键字的简单查询,大多数还提供附加的查询选项。比如说:
•布尔运算符号:AND(与)、OR(或)、NOT(非);
•多媒体检索:检索包括Java Applets、Shockwave等对象的网页;
•专用检索:检索在链接、图象名称、文档题目中的关键字或URL;
•多种检索约束条件:限定检索文档的创建时间,文档利用的语言等。
提交给用户的查询结果一般包括文档题目、URL和概述,有时也包括文档成立的时间、文档的大小等。有的搜索引擎还会按照必然的算法,给出每一条查找结果与查询关键词之间的相关程度评分。网页的概述内容,一般是用户决定是不是链接上该网页仔细阅读的依据。而网页概述部份的形成有好几种办法:
•将网页制作者的描述作为网页的概述;
•将文档的前面100一200个字符作为概述;
•采用一种提炼文档语句的算法来形成概述。
全文检索技术则是以文本信息作为检索对象,成立全文数据库。其大体工作方式就足能够把所有包括检索词的文档检索出来,不论这个词是出此刻文档的题目,仍是出此刻文档的任何一个位置。全文检索系统能够对文档中出现的任意词进行检索,或说文档中出现的任意词都可以作为检索到该文档的条件,这就是"全文"两字真正含义之所在。
3.元搜索引擎
元搜索引擎(metasearch engine)又称多元搜索引擎或并行搜索引擎,也称作大容量搜索引擎,是近两年才陆续出现的新型搜索引擎。它是为弥补搜索引擎的不足而出现的一种辅助检索工具。一般搜索引擎的检索范周仅局限于其自身的数据库,而且即即是世界上功能最壮大的搜索引擎数据库也只能涵盖世界上不到三分之一的公用网页。
同时,由于不同的搜索引擎各自的信息搜集方式和范围、检索算法和结果排序方式都各不相同,同一检索表达式取得的结果大不相同,要想取得较全面的网上信息,不能不利用多个搜索引擎,费时费力。
而元搜索引擎允许你同时搜索若干个数据库和搜索引擎,有的乃至可以向你提交单一的、集成的、分级排列的搜索结果清单。实际上,它将用户的检索提问同时送到数个搜索引擎的不同数据库中进行检索,在短短几秒钟时间就可以从这些搜索引擎数据库中找到相关记录的集归并进行不同程度的处置。这比一次只能访问一个搜索引擎方便得多。而且一样进行一次搜索,元搜索引擎使得你能够比利用单一搜索引擎查找到更多的网址。
元搜索引擎本身可以有也可以没有自身的数据库。它就恍如是有智能的中间代理,它发布用户的搜索请求,然后搜集独立搜索引擎返回的结果,最后为用户提供一个统一界面的搜索结果报告。
由于元搜索引擎刚出现,影响比较大的主要来自国外,比如:
•Dogpile •Inference Find •Search元搜索引擎也有缺点。由于其出现的时间不长,一些搜索引擎的壮大的检索功能还不能实现。而且由于它要借助于别的搜索引擎,
而不同的搜索引擎解析查询表达式的方式不同;处置大小写字母的方式不同;有的允许自然语言查询而有的不允许;有的可以采用NEAR(邻接)操作符而有的不可以。为了借用尽可能多的搜索引擎,元搜索通常只利用简单、直接的搜索策略,一般仅支持AND、OR、NOT等简单的比较低级的通用搜索操作。这样就很难乃至不能利用每一个搜索引擎的特色功能。
最新最全面的检索功能和一些专门化的信息仍是只能在特定的搜索引擎中取得。假设您的需求比较一般化,用元搜索引擎会有很好效果。但假设您需要更精细的搜索结果,元搜索并非必然适合。另外,与需要信息无关的检索结果大量出现的问题仍然不能解决。
(二)搜索策略
前面已经阐明,一种搜索引擎适用于一项任务,而且没有任何两个搜索引擎的搜索结果会完全相同。为了取得最好的结果,需要为每一项任务选择最适当的搜索引擎或把多种搜索引擎结合起来利用。综合考虑各方面因素,在网上进行搜索时可运用下列搜索策略(表2_3_4)取得资源后还需按照教学目的对教育信息资源进行评价。
步骤/任务
1.对主题有大概了解
2.从个别信源中获得信息
3.寻找特定资源/新闻组
搜索工具
主题树/目录
短期:浏览,网上文档
长期:个性化新闻服务,代理软件
KWDSEs
节选自 祝智庭 《现代教育技术——走进信息化教育》P117~124


发布评论