当前位置 : 主页 > 网络推广 > seo >

算法 – 搜索引擎如何从倒排索引中合并结果?

来源:互联网 收集:自由互联 发布时间:2021-06-16
搜索引擎如何将倒排索引的结果合并? 例如,如果我搜索“狗”和“蝙蝠”这个词的倒排索引,那么每个文档中都会有两个包含两个词之一的巨大列表。 我怀疑搜索引擎一次浏览这些
搜索引擎如何将倒排索引的结果合并?

例如,如果我搜索“狗”和“蝙蝠”这个词的倒排索引,那么每个文档中都会有两个包含两个词之一的巨大列表。

我怀疑搜索引擎一次浏览这些列表,一个文档,并尝试查找与列表结果匹配。什么是算术上完成,使这个合并过程快速?

实际上搜索引擎会合并这些文档列表。他们通过使用其他技术获得了良好的表现,其中最重要的是修剪:例如,按文件的每个字,按照递减页面的顺序存储文档,并获得有机会进入前10个(将可以向用户显示),您可能只能遍历狗和蝙蝠列表的相当小的一部分,比如说一千个。 (当然,也有缓存,但这与查询执行算法无关)

此外,毕竟没有关于狗和蝙蝠的许多文件:即使是数百万,它变成了分秒,实施良好。

附:我在国内领先的搜索引擎上工作,但并不是我们旗舰产品搜索引擎的引擎,而是与开发人员交谈,惊奇地发现查询执行算法实际上是相当愚蠢的:事实证明,大量计算成可接受的时间范围。这当然是非常优化的,但没有魔法,没有奇迹。

网友评论