特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

lucene – 语言语料库的搜索引擎

来源：互联网收集：自由互联发布时间：2021-06-16

我正在努力寻找一个用于构建语言语料库搜索引擎的好库.这样的引擎必须产生绝对透明的搜索结果(找到的匹配的确切数量,即使整个语料库匹配也没有结果切割),基本查询语法(AND,OR,NO

我正在努力寻找一个用于构建语言语料库搜索引擎的好库.这样的引擎必须产生绝对透明的搜索结果(找到的匹配的确切数量,即使整个语料库匹配也没有结果切割),基本查询语法(AND,OR,NOT运算符,距离搜索,通配符搜索)以及精炼的能力设置为搜索的文档(即设置为子语句).
一个重要的细节是索引分区和并行执行搜索的能力(语料库的大小为10 ^ 8个单词的顺序,搜索服务必须是实时的).

主要选择在Sphinx和Clucene(C Lucene港口)之间.不幸的是,我对这些图书馆的组织知之甚少,所以知道哪一个更符合我的要求会非常有帮助.

(我还尝试了一种专门的引擎 – IMS Corpus Workbench – 结果证明它不像所需的那样可扩展.

我建议设置SOLR服务器,这是一个Lucene衍生产品,并具有Restful接口. Lucene(SOLR)的新功能在其他同行中是无与伦比的.一个10 ^ 8个不同单词的语料库,可能是一个问题,但我希望它们是非独特的.最重要的是,在我的猜测中,它可能会导致一些性能损失.在裸露的Lucene上并行提供分区和搜索将是一种遗留问题. SOLR提供这两种功能. 我不太了解狮身人面像.但到目前为止,Lucene及其衍生品正处于前沿.

上一篇：xslt – 从tcm检索URL
下一篇：GWTP Presenter prepareFromRequest – 将数据加载到从事件中检索的表单中

lucene – 语言语料库的搜索引擎

相关文章