搜索引擎工作过程之索引
搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。今天继续大家分享:索引。
索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理。
01-提取文字
除去html代码,提取可见文字,mate标签中的文字、图片和flash的alt文字链接锚文等等。
02-中文分词
分为基于词典匹配和基于统计匹配。
03-去停止词
去掉页面内容中会出现大量高频率的助词(的、地、得);叹词(啊、哈、呀);介词(但、以、却),减少无谓的计算量。
04-消除噪声
根据html标签对页面分块,区分页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。
05-去重
对页面特征关键词利用算法(细小变化导致计算结果的巨大变化),去除重复内容,简单的加助词、拼凑段落。
06-正向/正排索引
经过文字提取、分词、消噪、去重之后,得到的就是反应页面主体内容的、以词为单位的内容,然后将索引词表存到索引库,每个文件里有N个词,一个文件重点针对一个词索引。
关键词列表:网页正文信息在经过切词系统处理后,形成了关键字列表,关键字列表中的每条记录都包含该关键字所在的关键字编号、网页编号、关键字出现的次数以及关键字在文档中的位置等信息。
07-倒排索引
当用户搜索正向索引文件中的某个词,而不是搜索正向索引文件中的核心词时,索引词表将不被快速索引的作用,故还需要依文件中的每个次建立倒排索引库。
08-链接关系计算
计算出页面上的链接指向了哪些其他页面,有哪些导入链接、锚文字,了解权重。
09-特殊文件处理
除了html外,还有pdf、word、wps、xls、ppt等。
爬行和抓取原始页面是不能直接参与排名的,需要做相应预处理,对所收集到的信息进行整理、分类,以备排名程序用。