常见的网站优化页面抓取页面的方式主要有广度优先、深度优先、大站优先、高权重优先及用户提交等,接下来将详细介绍这几种页面抓取方式及其优缺点。
常见的搜索引擎抓取页面的方式主要有广度优先、深度优先、大站优先、高权重优先及用户提交等,接下来将详细介绍这几种页面抓取方式及其优缺点。
如果把整个网站看作是一棵树,首页就是根,每个页面就是叶子。广度优先是一种横向的页面抓取方式,先从树的较浅层开始抓取页面,直至抓取完同一层次上的所有页面后才进入下一层。因此,在对网站进行优化的时候,我们应该把网站中相对重要的信息展示在层次较浅的页面上(例如,在首页上推荐一些热门产品或者内容)。因此,通过广度优先的抓取方式,搜索引擎就可以优先抓取到网站中相对重要的页面。
我们来看一下广度优先的抓取流程。首先,搜索引擎从网站的首页出发,抓取首页上所有链接指向的页面,形成页面集合(A),并解析出集合(A)中所有页面的链接;再跟踪这些链接抓取下一层的页面,形成页面集合(B)。就这样递归地从浅层页面中解析出链接,从而抓取深层页面,直至满足了某个设定的条件后才停止抓取进程。
与广度优先的抓取方式恰恰相反,深度优先是一种纵向的页面抓取方式,首先跟踪的是浅层页面中的某一个链接,从而逐步抓取深层次页面,直至抓取完最深层次的页面后才返回浅层页面继续向深层页面抓取。使用深度优先的抓取方式,搜索引擎可以抓取到网站中比较隐蔽、冷门的页面,这样才能满足更多用户的需求。
我们来看一下深度优先的抓取流程。首先,搜索引擎会抓取网站的首页,并提取首页中的链接;再沿着其中的一个链接抓取到页面1-1,同时提取其中的链接;接着,沿着页面1-1中的一个链接A-1抓取到页面2-1,同时提取其中的链接;再沿着页面2-1中的一个链接B-1继续抓取更深一层的页面。这样递归地执行,直至抓取到网站最深层的页面或者满足了某个设定的条件才转回到首页继续抓取。
由于大型网站比小型网站更有可能提供更多更有价值的内容,因此,如果搜索引擎优先抓取大型网站中的网页,那么就可以在更短的时间内为用户提供更有价值的信息。大站优先,顾名思义就是对互联网中大型网站的页面进行优先抓取,是搜索引擎中的一种信息抓取策略。
怎样识别所谓的大型网站呢?一是前期人工整理大站种子资源,通过大站发现其他的大站;二是对已经索引的网站进行系统的分析,从而识别那些内容丰富、规模较大、信息更新频繁的网站。
在完成大站识别后,搜索引擎就会对URL资源列表中大站的页面进行优先抓取。这也是为什么大型网站往往会比小站内容抓取更及时的原因之一。
权重,简单地说就是搜索引擎对网页重要性的一种评定。所谓的重要性归根到底就是网站或者网页的信息价值。
高权重优先是对URL资源列表中的高权重网页进行优先抓取的网页抓取策略。网页权重(如Google PageRank值)高低往往是由诸多因素决定的,例如,网页的外部链接数量及质量。如果下载一个URL就重新计算所有已下载URL资源的权重值,这样的效率是极其低下的,显然是不现实的。所以,搜索引擎会倾向于每下载若干URL资源后就对已下载的URL进行权重计算(即不完全的权重计算),以此来确定这些URL资源所对应页面的权重值,从而对较高权重值的网页进行优先抓取。
由于权重计算是基于部分数据而得出的结果,可能会与真实权重有较大出入(即失真)。因此,这种高权重优先的抓取策略也有可能会对次要页面进行优先抓取。
编辑:陇网天下甘肃网站优化