选自SIGIR 2018,作者:Rocio Caamares Pablo Castells,机器之心编译,参与:刘晓坤、思源、李泽南。
ACM国际信息检索研发大会SIGIR 2018日前在美国密歇根州安阿伯举行。
等一下。昨天,大会宣布了最佳论文等奖项,马德里自治大学的学者罗乔也获奖了。
卡马雷斯和巴勃罗卡斯特尔斯的论文《我应该随大流吗?概率的
推荐系统中受欢迎度的有效性分析
Systems获得了最佳论文奖,微软与马萨诸塞大学阿姆赫斯特分校合作发表了论文《神经网络的跨域正则化》。
使用对手学习的排名模型获得了最佳短文奖。本文将简要介绍最好的论文。
引言
近年来,在推荐系统的评价中使用IR方法和指标发展迅速,并已成为该领域的一种常见实践方法,它将理解推荐视为一项排序任务[14]。然而,国际关系
在推荐热门项目(即许多人知道、喜欢、评价或互动的项目)时发现了指标。
[4,21,35])在奖励算法中有很强的偏向性。同时,也发现目前的最佳推荐算法在推荐大多数人喜欢的项目时存在明显的偏见。
[21]。人们自然会质疑普通实验设置的可靠性和最佳算法的真实输出。
这个问题在信息检索方法论中并没有受到特别的关注,因为流行偏向于传统的搜索和信息检索。
任务没有出现,或者说没有以如此奇怪的方式出现。推荐系统评价的常用数据集,即使是单纯简单的人气排名,与目前最好的个性化算法相比,其人气偏向性也非常强。
[14],也有可能达到次优但不可忽略的推荐精度。而且,其实在高分稀疏的情况下,差距也不一定是微不足道的。因此,最近的研究已经开始解决这个问题,目前主要集中在确认和测量患病率偏差并消除它。
[4,21,34,35]。但一个基本问题仍然没有答案:真的有必要避免流行偏见吗?如果推荐的热门项目恰好正确,那么评价指标和推荐算法不应该只是支持吗?
产品的主要评价对人来说确实是非常有用的信息,这是一个简单、公平、有用的标准,是大多数人类决策的默认。事实上,我们经常接受这个标准,例如,当没有足够的证据来做出个人选择时,或者作为从零开始减少决策能量损失的指南,或者作为一种社会学习机制。
[3]。从应用的角度来看,基于许多选择的建议在许多情况下都是可以接受的。
[16],并且只需要最少的开发技能和维护成本。确实是一种应用比较广泛的方法,很多应用以热门榜、畅销榜、用户平均评分等形式展示。即使在一个训练有素的个性化推荐系统中,畅销产品列表仍然可以为新用户提供很好的帮助。
大多数人口味的有效性实际上有其统计意义:许多人喜欢的项目(根据观察到的用户活动)很可能被许多其他人喜欢(在测试集中)。
[19]。但从实验的角度来看,如果观察结果稍有偏差,且偏差在训练数据和测试数据中是一致的,那么推荐中的多数偏差可能只是准确猜测了实验者数据中隐含的用户偏好,而不是真正满足用户口味的产品。此外,大多数人的信号可能会被真实用户的升值趋势所干扰。
[5,29]。最近的研究表明,大多数人的结构都包含一定程度的可能性,因此不同的输出可能会成为最受欢迎的产品。
[31]。此外,人们知道公共动态经常受到外部和内部信息以及偏见因素的影响[26,27,29],如大众媒体[7]、营销、意见管理[6]和算法偏见。
[28],或社会融合[13]。
所以,问题是很开放的,那就是人气是否真的是实现精准推荐的高效因素,它的有效性在什么程度、什么情况下才是有效的,我们能否恰当地衡量。通过考虑、分析和比较。
红外测量的两个方面被用来解决这个问题,即有偏红外和无偏红外。
测量。前者代表一般离线实验测得的值,其中相关信息不是随机缺失的(MNAR)[23,24,25,34,35],后者代表缺失信息可用时的真实测量值。
罗乔卡马雷斯和其他研究人员在理论和实证方面都做了研究。在分析阶段,他们构造了问题的概率表达式。从修改推荐系统的概率排序原则[30]。
首先,研究人员通过比较最佳排名来分析基于受欢迎程度的推荐。罗乔卡马雷斯
还有人发现受欢迎的效果。
无效性取决于三个主要变量的相互作用:条目相关性、用户对条目的发掘度以及用户决策与发掘条目之间的相互影响。他们确定了决定流行度的因素之间的关键概率依赖性,并且描述了由不同独立性假设定义的一组趋势,其中每个趋势都导致了特定的流行度行为模式。通过使用在众包平台构建的数据集,实证性观察也支持理论发现,其中该众包数据移除了公共数据集一些常见的偏见。在其它研究结果中,Rocio Caamares
等研究者证明并展示了一种定性的矛盾,即在一般离线实验设置所测量的准确率与在无偏观察下估计的真实准确率之间的矛盾。研究者们确定了确保流行度可成为推荐中安全元素的条件,并且他们还描述并说明了这样一种相反情况,即流行度可能完全是一种误导的方向,它会指向比随机推荐更差的效用。研究者们进一步发现平均评分可能比评分的数量更加有效,它作为很多情况下的推荐的趋势,而这与有偏度量值所建议的正好相反。最后,研究者展示了他们的研究成果在个性化协同过滤算法中的意义。
图 1:非个性化流行度推荐的典型离线实验结果与个性化算法在两个公共数据集上的对比。
图 5:分析结果验证。a)栏对应 2 和 3a 的结论;c)对应 2 和 3c 的结论;d)匹配结论 1;b)例证了结论 4
中的一般场景。研究确认了观察到的和真实情况的准确率之间的几个不一致,并且发现了在情景 d
中流行度推荐的低于随机推荐的表现。我们还展示了(oracle)最佳非个性化排名的准确率。非统计学上显着的差异(2-tailed Student』s
t-test 在 < . 时)在图中用红色双箭头表示。
论文:Should I Follow the Crowd? A Probabilistic Analysis of the Effectiveness
of Popularity in Recommender Systems
论文链接:http://ir.ii.uam.es/pubs/sigir2018.pdf
摘要:在推荐系统的评估中使用 IR 方法论在近年来已成为惯例。然而,IR
指标在推荐受欢迎条目的奖励算法中被发现有很强的偏见,相同的偏见在当前最佳的推荐算法中也出现了。近期的研究证实并测量了这种偏见,并提出了相应的方法来避免它们。基础问题仍然是开放性的:即流行度是不是一种需要避免的偏见;它在推荐系统中是不是一种有用的和可靠的信号;或者它是否可能由实验偏见带来不公平的奖励。我们通过确定和建模可以决定(关于关键随机变量之间的依赖关系,涉及条目评分、发现和相关性)答案的条件,在形式层次上解决了这个问题。我们发现了保证有效流行度(或恰好相反)的条件,和反映真实有效性的测量指标值的条件,或定量地从中导出。我们通过经验结果例证并证实了理论发现。我们构建了一个完全没有通常公共数据中存在的偏见的众包数据集,其中我们解释了在常见带偏见离线实验设置的准确率,和通过无偏见观察数据测量得到的真实准确率之间的矛盾。