2024年5月10日发(作者:)
搜索引擎的定义:
搜索引擎是帮助用户查找储存在个人电脑,计算机网络如互联网上
的信息的软件程序。用户输入搜索项目,通常是通过录入一个关键字或短语。搜索引擎通过
扫描被搜索的计算机和计算机网络,或者分解(分析)它们数据的索引,返回万维网站点,
个人电脑文件或文档的列表。
搜索引擎的工作原理
:搜索引擎会预先去拜访大量的网站,并把这些网页的部分信息
预先储存在自己的服务器上。
基本技术包括:抓取,索引,排序。
抓取:
搜索引擎首先会派出一种被称作“蜘蛛”或者是“机器人”的软件,根据一定规则
扫描存在于互联网上的网站,并沿着网页上的链接从一个网页到另一个网页,从一个网站到
另一个网站。为保证采集的资料最新,它还会回访以抓取过的网页。
索引:
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所
在URL,编码类型,页面内容包含的所有关键词,关键词位置,生成时间,大小,与其他
网页的链接关系等),根据一定的相关度算法进行大量复杂的计算,得到每一个网页针对页
面文字中及超链接中每一个关键字的相关度(或重要性),然后用这些相关的信息建立网页
索引数据库。
排序:
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词
的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所有只需按照现成的
相关度数值排序,相关度越高,排名越靠前。
最后由搜索器将搜索结果的链接地址和页面内容摘要等内容组织起来,返回给用户
搜索引擎的分类:
网页级搜索,垂直搜索,元搜索引擎,目录搜索和集成搜索等5类
网页级搜索:
是名副其实的搜索引擎,最具代表性的有:Google,Yahoo,MSN Live Search,Ask,
国内著名的有:百度,搜狗等。他们都是通过从互联网上提取的各个网站的信息(文字访为
主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果
返回给用户,网页级搜索引擎也是目前常规意义上的搜索引擎。
垂直搜索:
是针对某一个行业的专业搜索引擎,是搜索引擎的细化和延伸。它将网页库中
某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理,然后再以某种形式
返回给用户。
元搜索引擎:
在接受用户查询请求时,同时在其它多个引擎上进行搜索,并将结果返回给
用户,元搜索引擎并不直接抓取网页,而是抓取多个搜索引擎的引擎数据库,并根据自己的
算法对抓结果重新筛选排序。
目录搜索:
目录搜索虽然有搜索功能,但在严格意义上算不上真正的搜索引擎,仅仅是按
目录费了的网站链接列表,并提供站内搜索而已。用户完全可以不用进行关键词查询,仅靠
分类目录也可找到需要的信息。
集成搜索:
也算不上是搜索引擎,只是运用了一定的网页技术,把多个搜索引擎的搜索功
能整合在一个搜索页面,并对各个搜索引擎的功能进行分类,方便用户在多个搜索引擎的搜
索结果只能够进行比较和选择。部分集成搜索甚至没有对用户的搜索请求做出任何记录。所
有,集成搜索更像一个在线的,集合了多个搜索引擎入口的软件,而不是搜索引擎。
五种分类的比较:
垂直搜索引擎和普通网页搜索引擎的最大区别是对网页信息进行了结
构化抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,然后将这些数据储
存到数据库,进行进一步的加工处理,如:去重,分类等,最后分词,索引再以搜索的方式
满足用户的需求。网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小
单位,而垂直搜索是以机构化数据为最小单位。
元搜索引擎由于建立在其它搜索引擎基础之上,自身的排序算法也很难以得到认可,所以一
直没有特别的影响力。
搜索引擎的未来:
快速化
多样化
内容多样化
搜索途径多样化
智能化
语义输入
互动功能
发布评论