当前位置 : 主页 > 网络推广 > seo >

lucene – 语言语料库的搜索引擎

来源:互联网 收集:自由互联 发布时间:2021-06-16
我正在努力寻找一个用于构建语言语料库搜索引擎的好库.这样的引擎必须产生绝对透明的搜索结果(找到的匹配的确切数量,即使整个语料库匹配也没有结果切割),基本查询语法(AND,OR,NO
我正在努力寻找一个用于构建语言语料库搜索引擎的好库.这样的引擎必须产生绝对透明的搜索结果(找到的匹配的确切数量,即使整个语料库匹配也没有结果切割),基本查询语法(AND,OR,NOT运算符,距离搜索,通配符搜索)以及精炼的能力设置为搜索的文档(即设置为子语句).
一个重要的细节是索引分区和并行执行搜索的能力(语料库的大小为10 ^ 8个单词的顺序,搜索服务必须是实时的).

主要选择在Sphinx和Clucene(C Lucene港口)之间.不幸的是,我对这些图书馆的组织知之甚少,所以知道哪一个更符合我的要求会非常有帮助.

(我还尝试了一种专门的引擎 – IMS Corpus Workbench – 结果证明它不像所需的那样可扩展.

我建议设置SOLR服务器,这是一个Lucene衍生产品,并具有Restful接口. Lucene(SOLR)的新功能在其他同行中是无与伦比的.一个10 ^ 8个不同单词的语料库,可能是一个问题,但我希望它们是非独特的.最重要的是,在我的猜测中,它可能会导致一些性能损失.在裸露的Lucene上并行提供分区和搜索将是一种遗留问题. SOLR提供这两种功能. 我不太了解狮身人面像.但到目前为止,Lucene及其衍生品正处于前沿.
网友评论