让我们一起来谈谈物以类聚。在了解了内容和用户的基本特征后,我们将进一步讨论推荐算法如何匹配用户和内容。总结一下,这个过程做的是“物如桑树,人分群”。
image handler/75762 da8-9e F5-44 bb-98 B4-9df 6a 535 c1dc /
基于内容的推荐方法在音乐、电影和书籍的推荐场景中很常见。以图书推荐场景为例。豆瓣书上有三本书,分别有以下标签:
推荐系统、数据挖掘、计算机、算法、机器学习、互联网、数据分析、人工智能。
推荐系统,机器学习,数据挖掘,算法,计算机,互联网,计算机科学,
分析大数据,数据挖掘,计算机,互联网,大数据时代,互联网趋势,社会学,数据
从标签层面不难看出,标签集层面的相同标签较多,相似度较高。然后,当用户A选择《推荐系统实践》时,系统应该给他优先推荐《推荐系统),而非《大数据时代》。
如果想进一步细化,可以使用TF-
IDF模式为不同的标签设置权重。基本思想是:的频率越高,标签区分度越低,反之亦然。比如“电脑”是高频的标签,那么这个标签的区分度就没有那么高,权重也低;而“推荐系统”是一个低频的标签,标签更有意义和差异化,权重更高。
基于内容属性的推荐的优势在于,它只依赖于项目本身的特征,而不依赖于用户的行为,从而可以显示新的、晦涩难懂的项目。存在的问题是推荐的质量完全取决于特征构建的完备性,但特征构建本身是一个系统工程,存在一定的成本。在上面的例子中,如果标签词的粒度不够细,不足以完全描述内容(例如,每本书只有三个标签词),则难以计算置信度相似度,推荐效果不够好。