我想构建一个内部搜索引擎(我有一个非常大的数千个 XML文件集合),它能够将查询映射到概念.例如,如果我搜索“大型猫科动物”,我希望高排名的结果也可以返回带有“大型猫科动物”的
我目前正在阅读Python中的自然语言处理书,似乎WordNet有一些可能有用的单词映射,但我不确定如何将它集成到搜索引擎中.我可以用Lucene这样做吗?怎么样?
从进一步的研究来看,似乎“潜在的语义分析”与我正在寻找的相关,但我不确定如何实现它.
关于如何完成这项工作的任何建议?
I’m not sure how to integrate that into a search engine. Could I use Lucene to do this? How?
步骤1.停止.
第2步.获取一些工作.
第3步.届时,您将了解有关Python和Lucene以及其他可能集成它们的工具和方法的更多信息.
不要试图解决集成问题.软件总是可以集成.这就是操作系统的功能.它集成了软件.有时你想要“更紧密”的整合,但这绝不是第一个要解决的问题.
要解决的第一个问题是让您的搜索或概念事物或其他任何东西作为一个愚蠢的命令行应用程序.或者通过传递文件或与OS管道或其他东西编织在一起来编织应用程序对.
稍后,您可以尝试找出如何使用户体验无缝.
但是,不要从集成开始,不要因为集成问题而停滞不前.将集成放在一边,让事情发挥作用.