日志文章

2007年03月29日 15:29:16

搜索引擎


搜索引擎(Search Engines)就是指在WWW(World Wide Web)环境中能够响应用户提交的搜索请求,返回相应的查询结果信息的技术和系统,

是互联网的第二大核心技术,涉及到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。

搜索引擎的工作原理
简单的说,搜索引擎是通过从互联网上提取的各个网站的信息来建立数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。

2.1目录式搜索引擎:是一种网站级搜索引擎。将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分,。先由程序自动搜集信息,然后由编辑员查看信息,人工形成信息摘要,提供目录浏览服务和直接检索服务。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的,缺点是需要人工介入、维护量大、信息量少、信息更新不够及时。Yahoo就是这类搜索引擎的代表。
2.2机器人搜索引擎:由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。搜索引擎主动派出称为蜘蛛(Spider)的机器人程序定期搜索(比如Google一般是28天),对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。Google、北大天网、百度(Baidu)就是这类搜索引擎的代表。

Tags: 搜索引擎   原理  

类别: 技术文摘 |  评论(0) |  浏览(1963) |  收藏
发表评论
看不清楚,换一张