我正在努力寻找一个用于构建语言语料库搜索引擎的好库.这样的引擎必须产生绝对透明的搜索结果(找到的匹配的确切数量,即使整个语料库匹配也没有结果切割),基本查询语法(AND,OR,NO
一个重要的细节是索引分区和并行执行搜索的能力(语料库的大小为10 ^ 8个单词的顺序,搜索服务必须是实时的).
主要选择在Sphinx和Clucene(C Lucene港口)之间.不幸的是,我对这些图书馆的组织知之甚少,所以知道哪一个更符合我的要求会非常有帮助.
(我还尝试了一种专门的引擎 – IMS Corpus Workbench – 结果证明它不像所需的那样可扩展.
我建议设置SOLR服务器,这是一个Lucene衍生产品,并具有Restful接口. Lucene(SOLR)的新功能在其他同行中是无与伦比的.一个10 ^ 8个不同单词的语料库,可能是一个问题,但我希望它们是非独特的.最重要的是,在我的猜测中,它可能会导致一些性能损失.在裸露的Lucene上并行提供分区和搜索将是一种遗留问题. SOLR提供这两种功能. 我不太了解狮身人面像.但到目前为止,Lucene及其衍生品正处于前沿.