兰州网站优化网页的更新策略,由于搜索引擎不可能一次性抓取到网站中所有的页面,而且网站中页面的数量也会不断地变化,内容也在不断地更新,因此,搜索引擎还需要对已经抓取的页面进行维护、更新,以便能及时获取页面中最新的信息,抓取更多的新页面。
由于搜索引擎不可能一次性抓取到网站中所有的页面,而且网站中页面的数量也会不断地变化,内容也在不断地更新,因此,搜索引擎还需要对已经抓取的页面进行维护、更新,以便能及时获取页面中最新的信息,抓取更多的新页面。常见页面维护方式包括:定期抓取、增量抓取、分类定位抓取、历史更新策略及用户体验策略。
网站优化网页定期抓取
定期抓取也称为周期性抓取,即搜索引擎周期性地对网站中已经抓取的页面进行全面更新。更新的时候,把抓取到的新页面替换原有的旧页面,删除不存在的页面,并存储新发现的页面。周期性更新针对的是全部已抓取的页面,因此更新周期会比较长。例如,Google一般是30~60天才会对已抓取的页面进行更新。定期抓取算法的实现相对简单。由于每次更新涉及到网站中所有已经抓取的页面,因此页面权重的再分配也是同步进行的。这适用于维护页面比较少、内容更新缓慢的网站,例如普通的企业网站。但是,由于更新周期十分漫长,就不能及时向用户反映更新期间页面的变化情况。例如,某个页面的内容更新以后,至少需要30~60天才能在搜索引擎上有所体现。
网站优化网页增量抓取
增量抓取是通过对已抓取的页面进行定时监控,实现对页面的更新及维护。但是,对网站中的每个页面都进行定时监控是不现实的。基于重要页面携带重要内容的思想以及80/20法则4,搜索引擎只需对网站中部分重要页面进行定时的监控,即可获取网站中相对重要的信息。
因此,增量抓取只针对网站中某些重要的页面,而非所有已经抓取的页面,这也是为什么搜索引擎对重要页面的更新周期会更短的原因。例如,内容经常更新的页面,搜索引擎也会经常对其进行更新,从而可以及时发现新内容、新链接,并删除不存在的信息。
由于增量抓取是在原有页面的基础上进行的,因此会大大缩减搜索引擎的抓取时间,还可以及时向用户展示页面中最新的内容。
分类定位抓取与增量抓取由页面重要性决定不同,分类定位抓取是指根据页面的
类别或性质而制定相应更新周期的页面监控方式。例如,新闻资讯类页面的更新周期可以精确到每分钟,而下载类页面的更新周期就可以定为一天或更长。
分类定位抓取对不同类别的页面进行分开处理,这样就可以节省大量的抓取时间,并大大提高页面内容的实时性,增强页面抓取的灵活性。但是,按照类别制定页面更新周期的方式比较笼统,很难跟踪页面的更新情况。因为即使是相同类别的页面,在不同的网站上内容的更新周期也会存在很大的差别。例如新闻类页面,在大型门户网站中内容的更新速度就会比其他小型网站快得多。所以,还需要结合其他的方式(例如增量抓取等)对页面进行监控和更新。
实际上,搜索引擎对网站中页面的维护也是结合多种方式进行的,相当于间接为每一个页面选择最合适的维护方式。这样,既可以减少搜索引擎的负担,又可以为用户提供及时的信息。
例如,一个网站中会存在多种不同性质的页面,常见的包括:首页、论坛页面、内容页面等。对于更新比较频繁的页面(例如首页),可以使用增量抓取方式对其进行监控,这样就可以对网站中相对重要的页面进行及时更新;而对于实时性非常高的论坛页面,则可以采用分类定位的抓取方式;为了防止遗漏网站中的某些页
面,还需要采用定期抓取的方式。
网站优化网页历史更新频率策略
历史更新频率策略基于这样一种思想:某个网页在过去某段时间内频繁更新,那么在将来的某个时间里也可能会频繁更新。例如,对于某网站的首页,通过对它进行的监控可以分析出它的内容更新规律,搜索引擎就可以据此调整对它的抓取频率及时间点,从而及时获得网页中的最新内容。
网站优化网页用户体验策略
所谓的用户体验策略是指为了提高搜索引擎用户体验而制定的针对性的网页更新策略。衡量搜索引擎用户体验有众多指标,而网页更新的及时性是其中一项重要因素。对于搜索引擎中的关键字搜索结果,用户通常只会点击排名前30的网页。因此,只要及时更新排名前30的网页,即可节省搜索引擎的资源,提高重要网页的更新频率,也可满足绝大部分用户获取信息的需求。