搜索引擎基本工作原理

2016-03-29 11:36 阅读 615 次 评论 0 条

国内能够带来流量的搜索引擎有百度、360、搜狗,各种搜索引擎的工作原理都是差不多,大同小异的。 搜索引擎的基本工作原理包括以下几点:搜索引擎工作原理表

1、爬行、抓取网页。百度称呼它为蜘蛛也叫做爬虫,主要负责收集网址和抓取页面的内容。爬行蜘蛛主要负责爬行你网站上面的链接。爬虫抓取是循着链接来抓取页面,页面更新度也就页面的更新频率。页面的更新频率越高,被抓取的几率也会越大。地址库主要是存放网址,①、蜘蛛抓取的网址存放在地址库中。②、站长自己提交的网址。文件存储:蜘蛛抓取到的数据,并对数据进行存储,还要分辨抓取的内容是否重复性。

2、、预处理网页。蜘蛛抓取网页后,还要做大量的预处理工作,比如把文字信息提取出来,因为蜘蛛识别不了图片和Flash,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其还包括关键词拆分、去掉停止词、去除重复网页、消除噪声、正向索引、倒排索引、分析超链接、特殊文件处理等。

3、网站排名原理。用户输入关键词进行搜索,搜索引擎(蜘蛛)从数据库中找到匹配该关键词的网页;把经过处理的结果显示给用户。为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的描述。

ps:第一次搜索结果会缓存到电脑或者浏览器中,第二次搜索这个关键词的时候,不会再向百度服务器发出请求,而是直接调用本地的缓存文件显示给用户。

重庆SEO总结:通过用户搜索的关键词,从数据库中调出相应的网页,并进行一定处理之后显示给用户。

版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:搜索引擎基本工作原理 | 重庆SEO【5年技术实力】重庆网站优化

发表评论


表情