一、简介
全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。
二、种类
全文检索的方法主要分为按字检索和按词检索。
按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。
按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。
三、工作原理
全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。
四、功能
(1).建立索引
(2).处理查询返回结果集
(3).增加索引
(4).优化索引结构
五、结构
该系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等。
六、特点
(1).最大程度上符合了网民对搜索的依赖
(2).查询时不访问数据库,降低了系统的压力。
(3).统计功能完善,抓住了市场方向。
(4).具有较好的移植性。
七、数据库
(1)简介
全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。
(2)收集方式:
从网站提取信息是最常见的一种方式之一。众所周知,定期搜索是搜索引擎的自动信息收集功能 ,字面意义上我们可以理解为定期的一段时间间隔,数据库就会在发现新网站中对该网站的信息和网址进行自动提取,并不断地充实到自己的数据库。它具有的优势使其成为最受人们欢迎的方式。
提交网站搜索,便是网站的拥有者主动地向搜索引擎提交自己的网址。其存在的弊端就是如果你想让自己的搜索排名靠前,需要加入更多的外部链接让搜索引擎有更多的机会能找得到你并且自动的收录。这是因为近年来搜索引擎规则有很大的变化,主动的提交网址不能保证 一定能进到数据库,需要更多地外部链接予以辅助。
关键词搜索,也是一种比较常用的方式。比如一般的大家在进行搜索的时候最常用的就是关键词搜索方式。关键词搜索的优势就是可以很快地搜集到信息。用户在利用关键词搜索的时候,搜索引擎会在自己的数据库中进行寻找,通常利用网页中关键词的匹配程度和与用户要求内容相符的网站进行相配。
TAG:搜索引擎工作原理