当前位置 : 主页 > 网络推广 > seo >

信息检索 – 余弦相似度和tf-idf

来源:互联网 收集:自由互联 发布时间:2021-06-16
感谢你以前给我的所有帮助。 我只是有一个小问题,似乎让我感到困惑。 TF-IDF和余弦相似度。 我正在两个文章上阅读,然后在维基上阅读余弦相似性我发现这个句子“在信息检索的情
感谢你以前给我的所有帮助。

我只是有一个小问题,似乎让我感到困惑。

TF-IDF和余弦相似度。

我正在两个文章上阅读,然后在维基上阅读余弦相似性我发现这个句子“在信息检索的情况下,两个文档的余弦相似度范围为0到1,因为术语频率(tf-idf权重)不能两个术语频率矢量之间的角度不能大于90°。

现在我想知道….他们不是两个不同的东西吗?

tf-idf是否已经在余弦相似之内?如果是的话,那是什么?我只能看到内点产品和欧式龙头

我认为tf-idf是在文本上运行余弦相似性之前可以做的事情。我错过了什么? O.o

Tf-idf是您应用于文本以获取两个实值向量的转换。然后,您可以通过取其点积并将其除以其规范的乘积来获得任何一对向量的余弦相似度。这产生向量之间的角度的余弦。

如果d2和q是tf-idf向量,那么

其中θ是矢量之间的角度。由于θ的范围是0到90度,cosθ的范围是从1到0,因为tf-idf矢量是非负的,θ只能在0到90度的范围内。

tf-idf和余弦相似度/向量空间模型之间没有特别深刻的联系; tf-idf只是与文档术语矩阵相当好。它在该域外使用,但原则上您可以替换VSM中的另一个转换。

(公式取自Wikipedia,因此为d2。)

网友评论