根据推荐物品的元数据发现物品的相关性,再基于用户过去的喜好记录,为用户推荐相似的物品。
一、特征提取:抽取出来的对结果预测有用的信息
对物品的特征提取-打标签(tag)
- 用户自定义标签(UGC)
- 隐语义模型(LFG)
- 专家标签(PGC)
对文本信息的特征提取-关键词
- 分词、语义处理和情感分析(NLP)
- 潜在语义分析(LSA)
二、特征工程:使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程
特征工程步骤:
1、特征清洗
2、特征处理:特征按照数据类型分类,有不同的特征处理方法
a、数值型:
归一化:
离散化:
离散化的两种方式:等步长【简单】、等频【更精准,但每次需要对数据分布进行重新计算】
b、类别型:数据本身没有大小关系,要做到公平,又能够分开他们
One-Hot编码/哑变量:将类别型数据平行的展开【特性空间会膨胀】。
c、时间型:既可以做离散值又可以看作连续值
d、统计型:加减平均、分位线、次序性,比例类
3、特征选择
三、基于UGC的推荐
1、用户生成标签(UGC):
用户用标签来描述对物品的看法,所以用户生成标签(UGC)是联系用户和物品的纽带,也是反应用户兴趣的重要数据源
2、三元组(用户u,物品i,标签b) :用户u给物品i打上了标签b
3、用户u对物品i的兴趣公式为:
4、UGC问题:
倾向于给热门标签、热门物品比较大的权重,推荐的个性化、新颖度就会降低
四、词频-逆文档频率(Term Frequency-Inverse Doucment Frequency TF-IDF)
TF-IDF:信息检索与文本挖掘的常用加权技术。
用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在预料库中出现的频率成反比下降。
TF-IDF的主要思想是:
如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类