2023年12月29日发(作者:)

从因特网获取信息的利器——搜索引擎

互联网出现到现今,信息量可以说成幂指数的增长,大量信息就像Google的原本含义“1的后面跟着100个0”一样,这个数比宇宙所有的基本粒子的数量总和还要大。我们喜爱在信息的海洋中自由遨游,正是因为它有无尽的信息资源可供浏览查询,可有时候当我们去寻找所需要的信息时,却如同大海捞针一样难。如何才能在这浩如烟海的信息中找到自己需要的信息呢?——搜索引擎就像一只神奇的手,帮助我们从杂乱的信息中抽出一条清晰的检索路径。

定 义:

搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。

起 源:

1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。

最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序①接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福大学的两名博士生,美籍华人杨致远(Gerry

Yang)和美国人David Filo,共同创办了雅虎(Yahoo),并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。(视频:搜索引擎的发展历史)

组 成:

搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成,各自功能如下:

① 搜索器:在互联网中漫游,发现和搜集信息;

② 索引器:理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;

③ 检索器:根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;

④ 用户接口:接纳用户查询、显示查询结果、提供个性化查询项。

工作原理:

搜索引擎通常收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立了索引数据库。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜索出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→等待用户提出搜索请求,根据关键词在索引数据库中搜索排序。搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。(图 解)

① 电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。

超 链

(1)抓取网页(搜索器)

每个独立的搜索引擎都有自己的网页抓取程序(Spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

超 链 超 链

超 链

超 链

(2)处理网页(索引器)

搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。

任务:下图是中国2010年上海世博会官方网站的源代码截图,请注意其中关键词部分的内容。

(3)提供检索服务(检索器、用户接口)

用户输入关键词②进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供网页描述或一段来自网页的摘要、网页快照③以及其他信息。

任务1:百度中搜索“搜索引擎”、“上海世博”或者其他自定内容,查看网页快照。

任务2:老师备课时遇到了一些问题,请帮忙思考解决:

(a)需要腾讯搜搜的logo图标,可当时搜搜网页上是清明的图片,怎么才能找到原来的logo图片?④

(b)用Google搜索javascript的某个知识点,已经在搜索结果列表中看到了要找的内容,但是链接打不开,想用快照看吧,可是谷歌的快照竟然也打不开,并且只搜索到这一个有用的链接,这时该怎么办呢?⑤

分类及其特点:

(1)全文搜索引擎(关键词搜索引擎)

全文检索是指计算机索引程序通过扫描文章中的每用户接口

一个词,对每一个词建立一个索 引索引,指明该词在文章中出现关键词

数 据的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。

关键字检索服务适用于按只字片语查找信息。它根据输入的几个字、词或短语,在其索引数据库里查找与其有关的信息所在的网址。通常会列出许多相关的网址供选择。最常用的全文搜索引擎有百度、谷歌⑥等。

有些提供全文搜索引擎的网站本身并不具备专业的搜索引擎技术和自建的索引数据库,而是租用了搜索数据库服务提供商提供的资源,按照自定的格式排列搜索结果。

(2)目录索引类搜索引擎(分类搜索引擎)

用户接口

索 引数 据关键词

目录索引,顾名思义就是Menu1

将网站分门别类地存放在相Menu2

应的目录中,因此用户在查询MenuN

信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

现在很多搜索网站都提供目录检索或网址导航的服务,如搜狐、雅虎、新浪等。

②关键词就是您输入搜索框中的文字,也就是您命令搜索引擎寻找的东西。无庸至疑,选择正确的关键词是一切的开始。学会从复杂搜索意图中提练出最具代表性和指示性的关键词对提高信息查询效率至关重要,这方面的技巧(或者说经验)是所有搜索技巧之母。

③网页快照是搜索引擎抓捕下来缓存在服务器上的网页。它有三个作用:第一,如果原地址打开很慢,那么可以直接查看搜索引擎的缓存页面,因为通常搜索引擎的服务器速度极快。第二,如果原链接已经死掉或者因为网络的原因暂时链接不通,那么可以通过网页快照看到该页面信息。当然,快照内容不是该页最新页面。第三,如果打开的页面信息量巨大,一下子找不到关键词所在位置,那么可以通过网页快照,因为快照中会用黄色表明关键字位置。

④答案:用百度搜索腾讯搜搜,打开百度快照里面的网页,就可以找到历史记录中的图标。

⑤答案:将搜索结果中的部分内容复制出来,用百度搜索此内容,能找到,虽然网页链接同样打不开,但百度的快照可以打开,终于找到了所需要的内容。

⑥教材和测试题中所提的北大天网已经停止服务了,也不对未安装maze软件的用户服务。可能有些题目关于全文搜索引擎的答案中含有北大天网,其实当时的北大天网也主要是ftp文件搜索。

知名网址大全:/ 、/

最新2010搜索网站一览表

站名

Logo

搜索首页 目录搜索

(网页/关键词/全文) (导航/网址大全)

自助区

Some Link

百度

谷歌

搜狐搜狗

雅虎

微软必应

新浪爱问

腾讯搜搜

中搜

网易有道

114搜索

暂无

暂无

暂无

新手指南、帮助中心、 产品大全、搜索风云榜

搜索入门、使用偏好

帮助中心

帮助中心

帮助、首选项

帮助

帮助

帮助中心

帮助

帮助中心

更多功能

产品大全

更多内容

全部产品

帮你搜排行榜

服务大全

更多搜索

注:谷歌导航即;新浪爱问的网页搜索依赖谷歌;21世纪搜索()实际是114搜索;114搜索技术由必应提供。

部分搜索品牌口号:百度一下你就知道;360度雅虎全能搜;搜搜更懂你。

中文搜索引擎指南、搜索引擎大全/、转载某搜索引擎大全

(3)元搜索引擎

现在出现了许多的搜索引擎,其收集信息的范围、搜索机制、算法等都不同,用户不得不去学习多个搜索引擎的用法。每个搜索引擎平均只能涉及到整个www资源的30-50%(search engine watch数据),这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查准率不到45%。

元搜索引擎(Meta-Search Enging)是将用户提交的检索请求到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。

A索引

数据库用户接口

索引列表

关键词

××××××B索引

数据库

C索引

数据库

目前比较成功的元搜索引擎有MetaCrawler、ixquick、搜乐、搜客、觅搜、搜魅等。

站名

MetaCrawler

Ixquick

搜 乐

觅 搜

搜 客

搜 魅

Logo

URL

/

/

/

/

/

/

任务:访问搜乐网站,看看它集合了几家搜索引擎的内容

拓展阅读1:全文搜索引擎 PK 目录索引类搜索引擎

与全文搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo这样的超级索引,登录更是困难。

此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。

拓展阅读2:谷歌宣布退出中国后微软的行动

微软公司近日对旗下搜索引擎必应(Bing)的用户界面进行了升级,软件巨头在新界面中添加了“快速标签”(Quick

Tab),帮助用户更快更准确的进行搜索。微软介绍称,一项研究显示,有42%的搜索请求需要再度细化。当用 户使用搜索引擎完成一项普通任务时,需要不断增加关键词,细化搜索。而通过快速标签功能,用户则可一步完成搜索其他:例如,在计划一次旅游时,用户会关心目的地的天气、赛事与地图等信息。而这时通过必应搜索页面左侧 新添加的快速标签功能,就可以在只输入当地地名的情况下,通过一次点击了解各种信息。

拓展阅读3:百度、Google的名称由来

Google是英文单词"Googol"按照通常的英语拼法改写而来的。Googol是一个大数的名称,他是10的100次方,表示1后面跟100个零。Google公司采用这个词显示了公司想征服网上无穷无尽资料的雄心。Google公司没有采用Googol可能是因为版权的问题,而且当他们注册的时候,已经被注册。 Google 使用这一术语体现了公司整合网上海量信息的远大目标。详细

众里寻她千百度,蓦然回首,那人却在灯火阑珊处~~此乃“百度”二字的含义。

任务:访问必应,搜索一个你感兴趣的城市,看看搜索结果页面和其他搜索引擎有什么不同

发展趋势:

观看视频:1、网页预览,预见未来:有道首创“网页预览”专利技术;2、离奇的未来Google

多媒体信息检索

多媒体技术、网络技术和信息数字化处理等高新技术的飞速发展,使得因特网上的多媒体数据量激增,网络信息已不再是单纯的文本信息。

在多媒体数据库中,除了传统的文本和数字外,还包括图形、图像、视频、音频、动画以及各种媒体的组合。多媒体信息的内容具有丰富的内涵,每一种多媒体数据中都有一些特殊的数据,这些数据难以用字符来描述,如图像的颜色、纹理、形状,动画中的运动,声音的音调等。另外,由于多媒体形式的多元化和特征的多维性,不同的人因知识、经验的不同而有不同的理解,在很多情况下,多媒体信息无法直接用几个关键词加以描述。例如,我们现在查找歌曲,一般是通过歌手姓名、歌曲名、歌词等进行检索,而歌曲的旋律、音调、音质等难以用文字表述,这些正是基于内容的音频检索需要研究和解决的问题,以期达到更深的检索层次和更好的检索效果。

目前有些音乐网站也已经有类似的目录分类检索,如音乐极限中有歌曲的心情类、状况类等的分类。

专业垂直搜索引擎

由于用户从事的职业有很大不同,不同用户对信息搜索也往往有自己的专业要求。综合性的搜索引擎收录各方面、各学科、各行业的信息,无关信息太多,专业垂直搜索引擎则可以解决这个问题。垂直类搜索引擎只面向某一特定的领域,专注于自己的特长和核心技术,能够保证对该领域信息的完全收录与及时更新。因此,基于专业领域的“垂直搜索引擎”开始成为搜索引擎发展的一个新趋势。

垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。

除了最常见的图片、音乐、视频、资讯、新闻、博客、地图、问答搜索外,还有如机票、期刊、数据等专业搜索,例如知识搜索、搜数网、去哪儿、口碑网等。

/提供了一些专业搜索的链接(有些已经失效),可以去了解一下。

阅读:知识型搜索引擎

随着互联网的发展,网上可以搜寻的网页变得愈来愈多,而网页内容的质素亦变得良莠不齐,没有保证。所以,未来的搜索引擎将会朝着知识型搜索引擎的方向发展,期以为搜寻者提供更准确及适用的资料。目前,网上的百科全书如雨后春笋般发展起来;另一方面,近年来亦有不少公司尝试在搜寻方面改进,务求更符合用户的要求。当中诸如Copernic Agent之类的搜寻代理就是其中之一。

维基百科全书是一部内容开放的百科全书,其目标是包含人类所有领域的知识。维基百科采用了WikiWiki技术,任何人都可以对条目进行编辑,并且这些修改都会得到完整的记录,我们相信它将在大家的无私奉献下得到不断完善。欢迎您一起参与维基百科全书的工作,自由地体会编书的乐趣,与大家分享您独到的知识和经验。

第三代搜索引擎

有迹象表明,包括微软、google、IBM、雅虎等在内的搜索巨头已在研发自然语言搜索、语义搜索、人工智能搜索等第三代搜索技术,而一些新兴企业也试图借搜索技术升级换代之机争夺话语权。

事实上,在使搜索引擎智能化的问题上,最大的瓶颈还不在于系统的逻辑能力和知识水平,而在于系统本身的调试。因为,逻辑推理能力可以改善,知识库可以增加,系统的协调则需要不断地试错和纠错。

自主阅读:

澳大利亚华人发明第三代搜索引擎 具备人工智能-搜索引擎

揭秘AIsou人工智能搜索内幕

搜索引擎的三个时代及第三代搜索引擎的商业前景(论点仅供参考)

热点透视:

(1)人肉搜索

“如果你爱他,把他放到人肉搜索上去,你很快就会知道他的一切;如果你恨他,把他放到人肉搜索上去,因为那里是地狱„„”这句话一点也不夸张,“人肉搜索”兴起以来掀起的波澜可谓是一浪更比一浪猛,从最初的搜索“虐猫人”到最近的替奥运冠军寻父。是非热议已将“人肉搜索”推向了悬崖边, “人肉搜索”,到底是伸张正义还是网络暴力?„„

人肉搜索就是利用现代信息科技,变传统的网络信息搜索为人找人,人问人,人碰人,人挤人、人挨人的关系型网络社区活动,变枯燥乏味的查询过程为一人提问、八方回应,一石激起千层浪,一声呼唤惊醒万颗真心的人性化搜索体验。人肉搜索不仅可以在最短时间内揭露某某门背后的真相,为某三某七找到大众认可的道德定位,还可以在网络无法触及的地方,探寻并发现最美丽的丛林少女,最感人的高山牧民,最神秘的荒漠洞窟,最浪漫的终极邂逅…… 人肉搜索追求的最高目标是:不求最好,但求最肉。

例如:中文搜人引擎、猫扑人肉搜索等。

自主阅读:人肉搜索:始于道德应终于法律

(2)Google退出中国内地

2010年1月12日谷歌公司在未事先与中国政府有关部门通气的情况下,公开发表声明,声称受到了中国政府支持的黑客攻击,不愿在中国运营 “受到审查的互联网搜索引擎”,并“考虑退出中国市场”。在谷歌公司一再请求下,为当面听取其真实想法,体现中方诚意,1月29日、2月25日中国政府有关部门负责人先后两次与谷歌公司负责人接谈,就其提出的问题作了耐心细致的解释,强调外国公司在中国经营应当遵守中国法律,如谷歌公司愿遵守中国法律,我们依然欢迎谷歌公司在中国经营和发展;如谷歌公司执意将谷歌中国网站的搜索服务撤走,那是谷歌公司自己的事情,但必须按照中国法律和国际惯例,负责任地做好有关善后工作。

中国政府鼓励互联网发展和普及,促进互联网对外开放。中国互联网上的交流和言论十分活跃,电子商务等发展迅速。事实证明,中国互联网的投资环境、发展环境是好的。中国将坚定不移地坚持对外开放的方针,欢迎外国企业参与中国互联网发展,并为外商到中国经营发展提供良好服务。中国互联网依然会保持快速发展的势头。

北京时间3月23日凌晨3:03,谷歌公司高级副总裁、首席法律官大卫•德拉蒙德公开发表声明,再次借黑客攻击问题指责中国,宣布停止对谷歌中国搜索服务的“过滤审查”,并将搜索服务由中国内地转至香港。(详细:谷歌搜索退出中国内地始末;最新评论:美国谷歌公司被合作伙伴抛弃 在中国尴尬维持)

思考并讨论:谷歌退出中国,最大受益者可能会是谁?

总结

完成