我有两个文本文件,我想比较.我做的是: 我把它们分成了句子. 我测量了一个文件中每个句子与第二个文件中每个句子之间的levenshtein距离. 我想计算这两个文本文件之间的平均相似度
>我把它们分成了句子.
>我测量了一个文件中每个句子与第二个文件中每个句子之间的levenshtein距离.
我想计算这两个文本文件之间的平均相似度,但是我无法提供任何有意义的值 – 显然算术平均值(所有距离之和[标准化]除以比较次数)是一个坏主意.
如何解释这样的结果?
编辑:
距离值是标准化的.
从文件A中取一个句子.你说你要将它与文件B的每个句子进行比较.我猜你正在寻找具有最小距离(即最高相似度指数)的B中的句子.
只需计算所有那些“最小相似性指数”的平均值.这应该可以粗略估计两个文本的相似性.
但是,是什么让你认为两个相似的文本可能会将他们的句子改组?我个人的意见是你还应该引入停用词列表,同义词等等.
不过:请同时检查三元组匹配,这可能是您正在寻找的另一种好方法.