2024年3月8日发(作者:)

搜索引擎

1、搜索引擎的概念

搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

2、搜索引擎分类

全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

3、搜索引擎工作原理及种类搜索引擎的优缺点

a搜索引擎工作原:页面收录,页面分析,页面排序,关键字查询。

b种类搜索引擎的优缺点

特点 优点 缺点 工作过程

自动建立索信息量大、更返回信息量过多,自动“抓取”网全文搜索引数据库 新及时面向包含许多无关信页→建立索引数引擎 具体网页内息 据库→在索引数 容,适合模糊据库中搜索排序搜索 →响应用户查询

人工整理分实实在找到分类不够细,分类人工或半人工收类,按主题分用户关心的目录的建立需要集→人工形成摘目录式搜类,并以层次内容分类,网人工介入,目录维要→人工分类

索引擎

树状形式进站导航质量护量大,信息更新

行组织,形成高,面向网站不及时

分类目录树 分类

没有自己的信息量大,并时间稍长,不太适以单一的查询接数据库,以单且比较准确,合特殊搜索 口,将用户查询一的查询接一次搜索,返请求向多个引擎口,将用户查回多个搜索递交,返回经过元搜索引询请求向多引擎的结果 重新排除、重新擎 个引擎递交,排序的综合结果

返回经过重新排除、重新排序的综合结果

4、举例对google和百度进行比较分析

1、google 是全球最大的并且最受欢迎的搜索引擎,主要的搜索服务有:网页,图片,音乐,视频,地图,新闻,问答。

(1)Google的功能和特点:

Google 搜索引擎是一个利用蜘蛛程序(Spider) 以某种方法自动地在互联网中搜集和发现信息,并由索引器为搜集到的信息建立索引,从而为用户提供面向网页的全文检索服务的互联网信息查询系统。

①拥有目前最庞大的中文网页数据库,支持多达132种语言,可将多国语言的搜索引擎整合到同一个界面,而且在这个界面下, 你可以定制语言以及到何种网站中去搜索, 不必像Yahoo那样, 要搜索不同语言版本的网站, 必须先进入相应语言的网站。同时会自动根据用户所使用的浏览器设置相应的语言界面。

②不仅对中文支持强大, 而且支持中英文和多种编码混合的检索词。

③其专利网页级别技术PageRank能够提供高命中率的搜索结果, 帮助用户找到相关主题的权威网站。

④它不以花哨取胜, 而是以功能表现为本。其网站只提供搜索引擎功能, 界面简洁、易用, 搜索速度快捷, 使得用户所输入的任何关键字或信息均能得到Google快速响应, 且其语链分析的算法还会将搜索结果排列出优先次序, 从而使重要的结果排列在前, 节省了用户查询时间。

⑤在查询多个关键字时, 只提供包含所有关键字的网页, 而且遵从关键字的相对位置。

⑥其搜索结果通常会比其它搜索引擎来得更准确, 且搜索结果摘录查询网页的含有关键字的内容, 而不仅仅是网站简介。

⑦其“网页快照”功能, 能从Google服务器里直接取出缓存的网页, 基本上避免了死链或页面连接不上对搜索用户造成的不便, 且其查找速度较常规链接快得多。

⑧具有十分简单、方便的新网站登录功能, 除了接受网站自行提交的申请外,

Google自身也经常在互联网上漫游, 搜寻新网站, 经过必要的分析后作取舍、更新和编排等处理。

(2)Google检索实例:

①单个检索词的检索

示例:搜索“元芳”

操作 敲回车键(Enter)或点击“Google搜索”按钮,即可检索到有关“元芳”

的资料。

②多个关键字的检索

搜索结果要求包括两个及两个以上关键字,需在关键字之间加上“与”或“+”或“and”;搜索结果要求不包括某些特定信息时,用“—”表示逻辑非操作。

示例1:搜索所有关键字“木有”和“稀饭”的中文网页。

操作 在搜索框中键入“木有 稀饭”,敲回车。

示例2:搜索所有包含“木有“不含“稀饭”的中文网页。

操作 在搜索框中键入“木有—稀饭”,敲回车。

③高级检索

搜索专用语 只要在专用词语上加上英文双引号,就可以准确地进行查询。这一方法在查找名言警句或专有名词时显得格外有。

示例:搜索包含“long long ago”字串的页面。

操作 输入: “long long ago”,敲回车。

④限制搜索的网站 可用“site”将搜索结果局限于某个具体网站、网站频道或某个域名。若要排除某网站或者域名范围内的页面,只需用“-网站/域名”。

示例:搜索中文教育科研网站(edu. cn)上包含“天津师大”的页面。

操作 输入“天津师大 site:edu .cn”

⑤搜索某一类型文件 可用“filetype: ”来搜索。

示例:搜索有关“信息检索”的PDF文档。

操作 输入:“信息检索 filetype:pdf”

⑥搜索的关键字包含在URL链接中 “inurl:”返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。

示例:查找MIDI曲“沧海一声笑”。

操作 输入:“ inurl:midi 沧海一声笑”

⑦搜索的关键字包含在网页标题中可用“intitle”和“allintitle”来搜索,其用法类似于inurl 和allinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。

示例:查找韩国明星玄彬的照片集。

操作 输入:“intitle:玄彬 写真”

Google还具有很多强大的检索方法,这里不再赘述。感兴趣的读者可自行学习。

(3)Google的优越性

①界面简洁

Google的首页美观、简洁,使用户能直观地感觉到搜索引擎功能的存在和其搜索功能强大的可能性,从而有继续搜索操作的愿望。主页设计没有分类目录,不会使人眼花缭乱而无所适从,给人以开门见山的感觉。

②易用

Google采用了新一代的网页级别(PageRank)先进技术,,这种技术使网页之间链接直接,畅通无阻。有效链接率高,也为用户带来便捷、易用的效果。此外,,Google 还提供了详尽、具体的“Google 说明”,用语大众化,易于理解。还配以清晰的图片,加以强化解释。

③快速

Google 搜索速度的快捷是它的又一大特色。用户所输入的任何关键字或信息,

都能得到Google 快速的响应,且其超链分析的算法还会将搜索结果排列出优先次序,从而使重要的结果排列在前,节省了用户的查询时间。此外,Google数据库的更新速度快,有效链接率高,这些都是带出搜索快速的重要因素。

④相关性高

Google根据网页间彼此的连接关系,把一篇网页被连接数目的多寡视为其相关性的一项指标。对于用户所输入的关键字,Google最大程度地寻求语义上匹配。此外,Google还包含汉字的相关性,例如对中文简体网站,找出对应的繁体网站,甚至是日文网站。高相关性更好地提高了Google 搜索的结果的精准度,还提高了搜索效率。

(4)Google的不足之处

至目前为止,在满足用户的搜索需求上,Google 依然存在一些令人遗憾的地方。

①其数据的更新速度无法进一步提高。由于数据量的庞大,使Google搜索引擎的数据更新无法早于30天, 在一定程度上影响了用户对信息的时效需求,

Google目前还无法突破这一瓶颈。

②无法搜索动态生成的网页。因为大多数负责搜索网页的蜘蛛软件都不敢去碰动

态网页,怕被变化无穷的动态系统黑洞吸进去出不来,Google虽然在这方面的研究虽然取得一些突破,但离真正的实用还有一段路要走。

2、百度 是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、搜狐(chinaren) 、Tom (163. net ) 、腾讯、263、21cn、上海热线、广州视窗、新华网、北方时空等。

(1)Baidu(百度)的功能和特点:

Baidu(百度)搜索引擎使用了高性能的“网络蜘蛛”序(Spider) 自动的在互联网中搜索信息,可定制、高扩性的调度算法使得搜索器能在极短的时间内收集到最大数量的互闻网信息。

① Baidu(百度)搜索引擎采用了先进的“链接分析(LinkAnalysis)”技术,这种技术将传统情报学中的引文索引技术同Web中最基本的东西——“超级连接分析”的技术相结合,在查找的准确性、查全率、更新时间、响应时间等方面与其他技术相比都有很大的优势;同时,Baidu(百度)应用内容相关度评价技术,并且运用了中文智能语言的处理方法, 依靠字与词的不同切割方法,弥补了单纯依靠字或词的引擎技术的缺陷, 并且能够在不同的编码之间转换, 这就使得简体字和繁体字的检索结果自然结合,相得益彰。

②Baidu (百度) 搜索引擎是目前更新时间最快、数据量最大的中文搜索引擎,

我们知道,互联网用户对新信息的查询是一个很大的需求,在Baidu (百度) 搜索引擎推出之前,最快的信息更新时间是30天左右,而Baidu (百度)搜索引擎的信息更新时间能做到一周一次,这样更加方便了互联网用户对新信息的查询。

③Baidu(百度)搜索引擎的可扩展性和ASP(APPLICATIONSERVICEPROVIDER) 商业服务模式是它的两个最鲜明的特点。一些搜索引擎网站当用户登录数量到达高峰的时候, 整个系统就接近瘫痪了,这是因为这些搜索引擎不具备真正的可扩展性。而Baidu (百度) 搜索引擎就可以承受所有高峰的负荷而不会在性能方面有任何偏差;Baidu (百度) 的客户主要是门户网站,而不是最终的网络用户,所以Baidu (百度)采用了国内最为流行的ASP(APPLICATIONSERVICEPROVIDER)

商业服务模式。

④Baidu (百度) 搜索引擎对外免费提供中文检索代码。

⑤Baidu (百度) 搜索引擎支持动态网页。此外,Baidu(百度)搜索引擎还成功地解决了中英文混合查询的问题。

(2)Baidu(百度)检索实例:

① Baidu(百度)自动带有“and”的功能,不支持“and”、“+”等符号的使用。关键

词之间加空格。

示例:搜索所有含有“中国”和“天津”的网页。

操作 输入“中国 天津”

② 不支持“词干法”和“通配符”等,要求所输入的关键词完整、准确, 一字不差,

才能得到最准确的资料。但是百度支持“—”功能,用于有目的地删除某些无关网页,在使用时减号之前必须留一空格。

示例:搜索含有“明星”但不含“杨幂”的网页。

操作 输入“明星 —杨幂”

③ 使用“A| B”来搜索“或者包含词语A, 或者包含词语B”的网页。

示例:查询“图片”或“写真”相关资料

操作 输入“图片|写真”

④ 在用户无法确定输入什么词语才能找到满意的资料时,百度相关检索会提供“其

他检索过的相关词语”作参考。

Baidu(百度)其它检索方法,这里也不再赘述。感兴趣的读者可自行学习。

(3)Baidu(百度)的优越性

Baidu(百度)本身技术的先进和服务的优良在众多有关搜索引擎的评测中都获得过良好的评价。

(4)Baidu(百度)的不足之处

至目前为止, 在满足用户的搜索需求上, Baidu (百度) 依然存在一些令人遗憾的地方。

①虽然Baidu (百度)对外宣称能够做到每天更新一次数据,可现在仍然只做

到了每一周更新一次,这在一定程度上影响了用户对信息的时效需求。

②Baidu (百度) 搜索引擎虽然通过“网页快照”、“相关检索”等功能方便了用户的查询,但是从用户查询个性需求方面考虑, Baidu (百度) 与其他一些优秀的搜索引擎相比缺少高级检索的功能。

5、总结各类搜索引擎的不同

(一)、Google搜索引擎 (/)

目前最优秀的支持多语种的搜索引擎之一,约搜索3,083,324,652 张网页。提供网站、图像、新闻组等多种资源的查询。包括中文简体、繁体、英语等35个国家和地区的语言的资源。 具体特点:

1、变化较快、机动性较高

Google 漫游器会定期抓取 Web,将大量网页列入索引。稍后完成的下一次抓取会注意到新网站、对现有网站的更改以及失效的链接,并对内容的变化在搜索结果中加以调整。

2、敏感度较高,反应较快

Google对新建的网站具有较高的查知性,当然,新建的网站必须要有外部链接或者向Google递交过网站登录信息。否则,即使Google的搜索技术再厉害,一个只有站长一个人看得见的网站是很难被Google发现的。Google收录新建网站的两个途径是:第一,通过网站的外部链接;第二,通过向Google提交网站登录数据。一般而言,后者的收录速度相对较快,而前者则要视Google对新建网站的外部链接网站的收录频率而定。如果Google对外部链接网站的评价高、收录频率高那么其发现新站的速度也相应地高,新建网站被收录的日期就会被提前。

3、较重视链接的文字描述

Google会将链接的文字描述作为关键词加以索引,所以我们在作友情链接时千万要仔细设计链接的文字描述,使之既符合网站的定位又不失相关性,以此博得Google的信任。

4、相关性和重要性并重

Google 使用 PageRank 技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关。在综合考虑整体重要性以及与特定查询的相关性之后,Google 才将最相关最可靠的搜索结果放在首位。这也是Google收录网页的特点之一。

5、较重视网页Meta标记的描述

大多数时候Google显示搜索结果时会把网页的Description显示出来,并占有较重的篇幅。

(二)、百度(baidu)中文搜索引擎 (/)

全球最大中文搜索引擎。提供网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索、百度搜霸、搜索援助中心。百度搜索引擎的特点:

1. 基于字词结合的信息处理方式。巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。

2. 支持主流的中文编码标准。包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。

3. 智能相关度算法。采用了基于内容和基于超链分析相结合的方法进行相关度评价,

能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。

4. 检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。

5. 百度搜索支持二次检索(又称渐进检索或逼进检索)。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。

6. 相关检索词智能推荐技术。在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%。

7. 运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。百度搜索引擎在中国境内提供搜索服务,可大大缩短检索的响应时间(一个检索的平均响应时间小于0.5秒)

8. 可以提供一周、二周、四周等多种服务方式。可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。

9. 检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。支持用户选择时间范围,提高用户检索效率。

10. 智能性、可扩展的搜索技术保证最快最多的收集互联网信息。拥有目前世界上最大的中文信息库,为用户提供最准确、最广泛、最具时效性的信息提供了坚实基础。

11. 分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。

12. 高可配置性使得搜索服务能够满足不同用户的需求。

13. 先进的网页动态摘要显示技术。

14. 独有百度快照,

15. 支持多种高级检索语法,使用户查询效率更高、结果更准。已支持“+”(AND)、“-”(NOT)、“|”(OR)、“site:”、“link:”,还将继续增加其它高效的搜索语法。

(三)、北大天网中英文搜索引擎(/)

由北京大学开发,简体中文、繁体中文和英文三个版本。提供全文检索、新闻组检索、FTP检索(北京大学、中科院等FTP站点)。目前大约收集了100万个 WWW页面(国内)和14万篇Newsgroup(新闻组)文章。支持简体中文、繁体中文、英文关键词搜索,不支持数字关键词和URL名检索。具体特点:

1.在语种上支持中英文搜索。国内大部分的搜索引擎都只收录中文网站,用来查找国内的英文网站。

2.在文件格式上即支持www文件传输格式,也支持FTP文件传输格式。天网将FTP文件分成电影、动画片,mp3音乐,程序下载,开发资源共四大类,用户可以象目录导航式搜索引擎那样层层点击下去查找自己需要的FTP文件。

(四)、新浪搜索引擎 (/)

互联网上规模 最大的中文搜索引擎之一。设大类目录18个,子目1万多个,收录网站20余万。提供网站、中文网页、英文网页、新闻、汉英辞典、软件、沪深行情、游戏等多种资源的查询。新浪搜索的特点:

1.基于业内最领先的互动问答搜索技术。新浪组织了深厚实力的研发团队以“互动问答平台”为技术导向进行了超过一年的专注探索,建立了搜索互动平台领域的制高点。搜索产品还成功克服了垃圾页面清理、数据库融合等业界难题。

2.忠实于用户的运作模式。Google、百度等搜索引擎基于竞价排名的商业运作模式,其

提供的搜索排序结果必然与用户实际查询需求有所偏差。而此次推出的新浪搜索是一项免费的服务产品,结果排序完全依照用户行为、心理方式,从而更忠实于人的自然需求,实现更好的搜索体验。

3.新浪卓越的资源优势。首先新浪在网民数量和流量、点击率的优势可谓无出其右。其次新浪具有最高的网民质量,网民的忠诚度、黏着度极高。这两点能够最大限度发挥“互动问答平台”搜索模式的特点,以高人气实现高效率的知识汇集与智慧共享。

(五)、雅虎中国搜索引擎 (/)

Yahoo!是世界上最著名的目录搜索引擎。雅虎中国于1999年9月正式开通,雅虎在全球共有24个网站,12种语言版本。Yahoo!目录是一个Web资源的导航指南,包括14个主题大类的内容。

(六)、搜狐搜索引擎 (/)

搜狐于1998年推出中国首家大型分类查询搜索引擎,到现在已经发展成为中国影响力最大的分类搜索引擎。每日页面浏览量超过800万,可以查找网站、网页、新闻、网址、软件、黄页等信息。

结论:在网站搜索引擎优化的过程中使用的手法都是相通的,但是也有些细节还是有些差别的。只要在框里键入要求就会找到用户的结果。