网站优化页面分析,在页面抓取只是搜索引擎工作的一个基础环节,页面抓取回来后并不代表搜索引擎马上就可以向终端用户提供查询服务。因为用户在使用搜索引擎进行查询的时候,使用的是一个词或者短语,而到目前为止,搜索引擎仅能提供整个原始页面,不能返回与用户查询条件相匹配的信息。
网站优化页面分析,在页面抓取只是搜索引擎工作的一个基础环节,页面抓取回来后并不代表搜索引擎马上就可以向终端用户提供查询服务。因为用户在使用搜索引擎进行查询的时候,使用的是一个词或者短语,而到目前为止,搜索引擎仅能提供整个原始页面,不能返回与用户查询条件相匹配的信息。因此,搜索引擎还需要对原始页面进行一系列的分析和处理,以迎合用户信息查询的习惯。
兰州网站优化网页分析是整个网页处理中最重要的环节,包括网页正文信息的提取(即标签信息过滤)、切词、建立关键字索引列表及关键字重组这几个重要的步骤。结果形成了一个关键字对应多个原始页面的关系,即形成了与用户查询习惯相符合的信息雏形。
正文信息提取:网页正文信息的提取实际上就是对网页中非正文信息的过滤。其中,最为重要的就是对网页中标签信息(例如,HTML标签、 JavaScript标签、PHP标签)的过滤。经过标签过滤以后,搜索引擎就可以得到网页的正文信息。切词/分词经过对原始页面提取正文信息后,搜索引擎就可以得到页面的实质内容。而为了得到与用户查询相关的数据,搜索引擎还需要对页面中的内容进行切分(也就是我们常说的切词或者分词),从而形成与用户查询条件相匹配的以关键字为单位的信息列表。每个搜索引擎的切词系统都会存在或多或少的差别,切词系统的优劣主要取决于开发者对语言的理解能力。特别是在中文语言环境里,切词算法直接影响网页内容经过切词处理后会产生什么样的关键字,这些关键字是否与用户的搜索习惯一致。因而,切词的结果直接决定搜索引擎能否提供与用户查询条件相匹配的信息。
在中文环境里,常见的分词方法包括字符串匹配分词及统计分词两种,下面简单介绍一下这两种中文分词算法。 字符串匹配分词是基于一个足够大、足够权威的“词典”上进行的。如果页面上的词与“词典”中的词匹配,则为命中。这样就可以得到一个词或者短语。 统计分词是根据相邻的两个(或者多个)字出现的概率判断这 两个(或者多个)字组合后是否会形成一个词。统计分词也常 常会结合“词典”进行匹配,常用于识别一些新词汇。例 如,“微博”等一些在传统中文语言中不存在的词汇。