我已经设法为给定的语料库评估 tf-idf function.如何找到每个文档的停用词和最佳单词?我理解给定单词和文档的低tf-idf意味着它不是选择该文档的好词. 停止词是那些在文档中非常普遍的
文档中最好(如更具代表性)的术语是那些具有更高tf-idf的术语,因为这些术语在文档中很常见,而在集合中很少见.
作为一个快速说明,正如@Kevin指出的那样,集合中非常常见的术语(即停止词)无论如何都会产生非常低的tf-idf.但是,它们会改变一些计算,如果你认为它们是纯噪声(根据任务可能不正确),这将是错误的.此外,如果包含它们,您的算法会稍慢.
编辑:
正如@FelipeHammel所说,你可以直接使用IDF(记得颠倒顺序)作为与df(反向)成比例的度量.这对于排名目的而言完全相同,因此选择顶部的“k”项.但是,不可能使用它来根据比率进行选择(例如,出现在超过50%的文档中的单词),尽管简单的阈值处理可以解决这个问题(即选择idf低于特定值的术语) .通常,使用固定数量的术语.
我希望这有帮助.