搜索引擎的两种基本抓取策略

大家好,这里是雅安seo优化博客。今天我们来说说搜索引擎的收录过程中所采取的收录抓取策略。蜘蛛在完成对robots.txt文件的访问之后便会开始对所进入的页面进行判断是否符合收录标准,如果符合,那么提取其内容和链接。这个页面抓取完成之后,还没完,蜘蛛还会顺着所提取的链接探索下去,从这个链接爬到下一个页面,又从下一个页面上的链接爬到再下一个页面……由于互联网上的页面链接结构异常复杂,蜘蛛需要采用一定的策略才能爬行到网上的所有页面。最简单的搜索引擎抓取策略有两种:1、深度优先策略如上图,简单点来说就是沿着一条路线垂直深入的爬行下去,直到完成任务。2、广度优先策略如上图,简单说就是先把指定的一个页面上的所有链接爬行一遍,然后再从每条链接深入同样平行地进行爬行。在实际中,这两种策略是同时发生的,理论上只要给予足够的时间,搜索引擎蜘蛛就可以爬完所有的页面。但是蜘蛛的带宽资源、时间并不是无限的,所以蜘蛛只能爬行一定的时间,权重越高的网站自然爬行的时间越长。搜索蜘蛛的目的就是探索到有价值的页面并收录,这就是为什么权重高的站爬行时间长,抓取度深的原因。所以我们建议新站的网站链接层次不要过深,免得蜘蛛在短时间内爬行不到。在收索引擎蜘蛛爬行完毕之后,便会把搜集到的网页数据交给数据分析系统,整个收录过程便结束了。好了,今天的seo基础就到这里。本文来自:http://www.kuaisubeian.org

本文出自快速备案,转载时请注明出处及相应链接。

本文永久链接: https://kuaisubeian.cc/1799.html

kuaisubeian