判断出文档的编码方式(如,UTF-8)
启发式方法,文档的元信息,用户手工选择
确定文档格式(如,PDF/WORD/EXCEL/HTML?)
以上两问题,往往通过购买格式及编码处理类软件库的许可证来解决。
何为词条化?
输入: “Friends, Romans and Countrymen”
输出: 词条(Token)
Friends,Romans,Countrymen
补充几点知识?
词条:指的是在文档中出现的字符序列的一个实例。
一个词条类:指的是相同词条构成的集合。(如,to sleep perchance to dream有5个词条,但是只有4个词条类——to被归为一类)
词项:指的是在信息检索系统词典中所包含的某个可能经过归一化处理的词条类。
词条化中的一系列问题?
Finland's capital
Finland? Finlands? Finland's?
Hewlett-Packard 是看成Hewlett 和 Packard 两个词条还是一个词条?
state-of-the-art
co-education
lowercase, lower-case, lower case ?
San Francisco: 到底是一个还是两个词条?
3/20/91 Mar. 12, 1991 20/3/91
55 B.C.
B-52 【B-52轰炸机,美国的一种轰炸机】
PGP 密钥:324a3df234cb23e 【PGP是一个基于RSA公匙加密体系的邮件加密软件】
(800) 234-2333
法语L'ensemble 【全部】到底是一个还是两个词条?
L ? L'? Le ?,但是常常希望 l'ensemble 能和un ensemble 【一组】匹配
至少在2003年以前,Google没有这样处理-国际化问题!
德语中复合名词连写
Lebensversicherungsgesellschaftsangestellter
'life insurance company employee'【人寿保险公司员工】
德语检索系统往往要使用一个复合词拆分的模块,而且该模块对检索结果的提高有很大帮助(可以提高15%)
中文和日文词之间没有间隔:
莎拉波娃现在居住在美国东南部的佛罗里达。
阿拉伯文 (或希伯来文)
通常从右到左书写,但是某些部分(如数字)是从左到右书写。
词之间是分开的,但是单词中的字母形式会构成复杂的连接方式。
中文分词方法?
基于是否使用词典:
基于词典的方法:给出一部词典,根据这部词典进行匹配
无词典的方法:不需要词典,根据某种人工构词规则或者统计规则从字生成词。
规则或者统计方法:
基于规则的方法:通过某种判定规则,确定是否为词
分词中遇到的两大难题:统计方法:基于语料库统计+机器学习
未登录词问题(Out of Vocabulary,OOV):出现词典中没有的词,如:人名、地名、机构名、一些新词等等歧义问题(Ambiguition):同一句子有多种可能的分词结果
解决歧义和未登录词识别的基本方法:
规则方法:分词过程中或者分词结束后根据规则进行处理;
统计方法:分词过程中或者分词结束后根据统计训练信息进行处理。
规则+统计。
停用词表?
停用词表(stop list), 将那些最常见的词从词典中去掉。
一般不包含语义信息的词: the, a, and, to, be。
汉语中的 “的”、“得”、“地”等等。
这些词都是高频词: 前30个词就占了 ~30% 的倒排记录表空间。
现代信息检索系统中倾向于不去掉停用词。
所谓的停用词并不一定没用,
如歌词“To be or not to be”。
词条归一化?同义词?拼写错误?大小写问题?
C.A.T?-->cat ? no.
Porter算法:英文词干还原。
Soundex方法:基于发音建立词之间的关系
跳表?
主要用来加快倒排索引记录表合并速度。
跳表指针放置位置?
现代搜索引擎跳表的作用并不大。启发式策略:对于长度为L的倒排记录表,每 √L 处放一个跳表指针,即均匀放置。均匀放置方法忽略了查询词项的分布情况。
短语查询?
将整个查询句子当做一个整体。
二元词索引?
stanford university palo alto
stanford university AND university palo AND palo alto
位置索引信息?
(内存)位置索引的大小大概是无位置信息索引的2-4倍。
邻近搜索中只考虑前后位置之间的距离不大于某个值。
很明显,位置索引可以处理邻近式查询,而双词索引却不能。
References:
[1] Christopher D.Manning, Hinrich Schütze, Prabhakar Raghavan, 王斌[译]. 信息检索导论[M]. 北京:人民邮电出版社, 2016.
[2] 王斌,信息检索导论讲义,lecture2-dictionary,2017
@qingdujun
2017-12-9 北京 怀柔