通常的做法是在分析搜索引擎的文档时不对所谓的停用词进行索引.停用词是常用词,例如a,the和this,它们经常出现在语言中.这个想法是,如果对停用词进行索引,它们会占用索引中太多的空
我想知道是否总是如此.
在现代搜索引擎中,索引停止词是否会使索引大小爆炸?或者只是边际增长.
另外,删除停用词会如何影响短语搜索?寻找“披头士”和“披头士乐队”似乎是两件截然不同的事情.
我正在使用elasticsearch构建应用程序,但此问题同样适用于Solr,直接lucene或任何其他变体.
>停用词的主要问题不是索引大小 – 而是答案的质量.它们往往占主导地位(具有非常高的 tf值,因此可能使结果返回错误),而不是索引的大小.在任何情况下,索引停用词都不会显着增加索引的大小(并且它绝对不会“爆炸”)
>克服它的一种方法是在索引 n-grams时使用停用词(而不是完全省略它们).我不知道它是否真的完成了,但它肯定可以帮助改善返回的结果.
另外:停用词并不总是*省略.例如,在讽刺探测器中 – 似乎(凭经验)停止词对答案非常重要.