当前位置 : 主页 > 网络推广 > seo >

信息检索 – 检索少于k个文档时的k精度

来源:互联网 收集:自由互联 发布时间:2021-06-16
在信息检索评估中,如果检索的文档少于k个,那么精度@ k是多少?假设只检索了5个文档,其中3个是相关的.精度@ 10是3/10还是3/5? 很难找到定义这类措施的边缘情况的文本,而数学公式通常
在信息检索评估中,如果检索的文档少于k个,那么精度@ k是多少?假设只检索了5个文档,其中3个是相关的.精度@ 10是3/10还是3/5? 很难找到定义这类措施的边缘情况的文本,而数学公式通常不涉及数据的不完整性.对于这样的问题,我倾向于转向trec_eval做出的决定,这是由NIST分发的工具,它具有所有常见检索措施的实现,尤其是文本检索会议(TREC挑战)中的挑战所使用的那些.

根据trec_eval 9.0的m_P.c中的度量标准描述(在本页中称为最新):

Precision measured at various doc level cutoffs in the ranking.
If the cutoff is larger than the number of docs retrieved, then
it is assumed nonrelevant docs fill in the rest.  Eg, if a method
retrieves 15 docs of which 4 are relevant, then P20 is 0.2 (4/20).
Precision is a very nice user oriented measure, and a good comparison
number for a single topic, but it does not average well. For example,
P20 has very different expected characteristics if there 300
total relevant docs for a topic as opposed to 10.

这意味着即使检索到的k少于k,也应始终除以k,因此在特定情况下精度将为0.3而不是0.6. (惩罚系统检索少于k).

另一个棘手的情况是,相关文件少于k个.这就是为什么他们注意到精确度是一个有用的措施,但不是很好.

对这些问题更加健全的一些措施是:归一化折扣累积增益(NDCG),将排名与理想排名(截止)和(更简单)R-Precision进行比较:计算相关文档数量的精度,而不是比固定的k.因此,对于R = 15,一个查询可以计算P @ 15,而对于R = 200,另一个可以计算P @ 200.

网友评论