特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

Solr中带撇号的单词正确分词

来源：互联网收集：自由互联发布时间：2021-06-16

我正在尝试配置Lucene / Solr来正确索引来自新闻文章的单词.正如目前使用Solr 3.4 WordDelimitedFilterFactory索引“开箱即用”：她成为她但她会像“她会”变成她,她,她和贝壳.我绝对不希望

我正在尝试配置Lucene / Solr来正确索引来自新闻文章的单词.正如目前使用Solr 3.4 WordDelimitedFilterFactory索引“开箱即用”：
她
成为
她

但她会像“她会”变成她,她,她和贝壳.我绝对不希望这匹配“shell”.这不是预期的词.

目前我的文本通过WhitespaceTokenizerFactory,然后是StopFilterFactory,然后WodDelimiterFilterFactory设置为：
    generateWordParts = “1”
    generateNumberParts = “1”
    catenateWords = “1”
    catenateNumbers = “1”
    catenateAll = “0”
    splitOnCaseChange = “0”
    splitOnNumerics = “0”
    preserveOriginal = “1”
    类型= “specialtypes.txt”

我试着说撇号是specialpes.txt中的字母字符,它说：
‘=> Α
但后来她变成了一个词,就像小马和公司一样,这不是我想要的.

有任何想法吗？

尝试使用protected =“protwords.txt”作为solr.WordDelimiterFilterFactory过滤器设置的一部分： https://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.WordDelimiterFilterFactory

你可以添加可能导致撇号分裂问题的单词(就像她,他,我们,我们,我们).这将对它们进行索引而不进行任何进一步的标记化或过滤,同时继续打破撇号上的词以用于占有和其他用途.

上一篇：从生成的解析表中检索语法规则
下一篇：rdf – 检索dbpedia-owl：使用dbpedia-owl：wikiPageRedirect值输入资源的值？

Solr中带撇号的单词正确分词

相关文章