搜索引擎首先对存储的原始页面建立索引,再过滤原始网页的标签信息,从中提取出网页中的正文信息;然后,对正文信息进行切词,并建立关键字索引,得到页面与关键字间的对应关系;最后,对所有关键字进行重组,从而建立关键字与页面之间的对应关系。
搜索引擎首先对存储的原始页面建立索引,再过滤原始网页的标签信息,从中提取出网页中的正文信息;然后,对正文信息进行切词,并建立关键字索引,得到页面与关键字间的对应关系;最后,对所有关键字进行重组,从而建立关键字与页面之间的对应关系。
网站优化网页索引:
为了提高页面检索的效率,搜索引擎需要对抓取回来的原始页面建立索引,由于URL就是页面的入口地址,为原始页面建立索引实际上就是为页面的URL建立索引,这样就可以实现根据URL快速定位到对应的页面。
网站优化关键字索引:
网页正文信息在经过切词系统处理后,形成了关键字列表。关键字列表中的每条记录都包括了该关键字所在的关键字编号、网页编号、关键字出现次数以及关键字在文档中的位置等信息;
网站优化关键字列表(图1-1)
记录1中的关键字K1在页面中出现了3次,对应页面中的 A1、A5、A7区域,如图1-1所示;
网站优化关键字K1在页面中的分布示意图(图1-2)
为了提高对关键字的检索效率,搜索引擎还会为关键字列表建立索引。这样,经过对网页及关键字列表都建立索引后,就可以实现从一个网页快速定位到某一关键字。
例如,网页0经过信息过滤后得到的内容是“中国广东省深圳市”; 然后,对内容进行切词后产生关键字“中国”“广东省”“深圳市”,并 对关键字建立索引。这样,根据网页0,搜索引擎就可以快速定位 到关键字“中国”“广东省”或“深圳市”上,如图1-3所示。
页面与关键字间的对应关系
然而,用户是通过关键字去寻找那些承载相应信息的页面的,所 以,搜索引擎还需要对已有信息进行相应的处理,建立关键字与页 面URL间的对应关系表,从而实现根据关键字快速定位到多个页面的功能,这就是下面所说的关键字重组问题。
网站优化关键字重组
为了迎合用户寻找信息的习惯,即以关键字为条件寻找与关键字相 关的页面。因此,搜索引擎需要建立以关键字为主索引的一个关键 字对应多个页面的关系表,即关键字反向索引表。而建立关键字反 向索引表最重要的任务就是对所有页面中的关键字列表进行重组。 之前对关键字建立索引后,已经产生了网页与关键字的一对多的对 应关系。接下来,搜索引擎把所有页面中的关键字进行重组5,并 建立关键字索引,从而形成一个不重复的关键字列表集合,即在关 键字列表中,每个关键字都是唯一的。这样,通过某一个特定的关 键字就可以找到一个或者多个网页,从而实现根据关键字返回相应 页面的功能,如图1-4所示。
关键字重组即把所有页面中的关键字组成一个集合,经过对原始页面进行分析、处理后,搜索引擎已经可以根据用户的查询条件返回相应的页面列表。但是,简单地向用户返回这个页面列表,往往不能满足用户的需要,所以,搜索引擎还会根据页面与用户查询条件 相关性的高低再对这个列表进行重新排列,然后把处理后的列表返回给 用户。这就是下面将要向大家介绍的搜索引擎对页面排序的问题。