正向索引可以简称为索引。 索引就是关键词与网页文件之间的一种对应关系。所以就存在两种索引:正向索引和倒排索引。我们知道搜索引擎中使用的是倒排索引,有不少朋友并不理解
正向索引可以简称为索引。
索引就是关键词与网页文件之间的一种对应关系。所以就存在两种索引:正向索引和倒排索引。我们知道搜索引擎中使用的是倒排索引,有不少朋友并不理解什么叫倒排索引。这里先来介绍—下正向索引。当用户进行査询时,如果对本地文件全面扫描用户所提交的关键词,"查询"的工作量就太大了,而且也是很消耗服务器资源的,所以搜索引攀会把已经处理过的网页先进行索引,放到数据库中等待网民的搜索査询请求。
一个网页被搜索引擎经过以上处理后,就只剩下能够体现网页主体内容的文本了,此时就可以对该网页进行索引了。正向索引指的是文件对应关键词的形式
正向索引是以关键字为主码,查询时需要遍历每一个文件。每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中,关键词也已经转换为关键词ID。这样的数据结构就称为正向索引。