现在,我们使用Solr作为全文索引,其中文档的所有字段都被编入索引但未存储. 有几百万个文档,索引大小是50 GB.平均查询时间约为100毫秒. 要使用突出显示等功能,我们正在考虑:额外的商
有几百万个文档,索引大小是50 GB.平均查询时间约为100毫秒.
要使用突出显示等功能,我们正在考虑:额外的商店文本.但是,这可能会使索引文件的大小翻倍.
我知道索引大小和查询时间之间绝对没有(线性)关系.在因子10上升文档导致查询时间几乎没有差异.
但是,系统(Solr / Lucene / Linux / …)必须处理更多信息 – 索引文件(例如)基于更多的I节点,依此类推.
所以我敢肯定,与索引大小相关的查询时间会受到影响. (但是:这明显吗?)
第一名:
你觉得,我是对的吗?
您是否有关于有/没有存储文本的索引大小和搜索速度的经验?
通过存储文件来炸毁索引是否明智和合理?
第二:
你知道,Solr / Lucene如何处理存储的文本?也许在单独的文件? (这样对简单搜索没有影响,不需要存储文本!?)
谢谢.
是的,如果你存储了大字段,那么索引就会增长,但是如果要突出显示它们,你就没有其他方法.我不认为速度会降低那么多,可能只是因为你需要下载更多数据检索结果,但它并不相关.关于lucene索引格式和索引中的不同文件,您可以查看here:存储的字段存储在特定文件中.