宾大微软联合提出深层强化学习框架用于新闻推荐
DRN: A Deep Reinforcement Learning Framework for NewsRecommendationGuanjie Zheng, Fuzheng Zha...
DRN: A Deep Reinforcement Learning Framework for News Recommendation
Guanjie Zheng, Fuzheng Zhang, Zihan Zheng, Yang Xiang, Nicholas Jing Yuan, Xing Xie, Zhenhui Li
Pennsylvania State University, Microsoft Research Asia
http://www.personal.psu.edu/~gjz5038/paper/www2018_reinforceRec/www2018_reinforceRec.pdf
这篇文章提出一种新的深度强化学习框架,用于新闻推荐。在线个性化新闻推荐挑战性很大,这是因为新闻特征和用户偏好是动态变化的。
目前有一些在线推荐模型可以捕捉到新闻推荐的动态属性,但是,这些方法存在三个主要问题。第一,这些模型只尝试对当前奖励(比如CTR)进行建模。第二,很少研究考虑利用用户反馈,而不是点击或者不点击作为标签,比如用户返回的频率,来提升推荐效果。第三,这些方法倾向于对用户推荐相似的新闻,这可能会引起用户的厌倦。
为了解决上述挑战,作者们提出一种基于深层Q-学习的推荐框架,可以对未来奖励精确建模。作者们进一步考虑用户返回的模式,作为点击与否标签的补充,进而可以捕捉更多的用户反馈信息。此外,还融入了一种高效的探索策略用于发现新的有吸引力的新闻推荐给用户。
在线下数据集和线上生产环境中的商业新闻推荐应用中的实验表明作者们所提方法的优越性能。
新闻推荐具有很强的动态变化属性

下面是一个用户10周的兴趣变化趋势

用户多久返回目前还比较缺乏相关研究

现有模型缺陷之一还体现在只推荐相似的商品

作者们所提模型重要特性在于

环境 智能体 状态 行动 奖励跟各个模块的对应关系如下

整个模型图示如下

这篇文章的主要贡献如下

下面是一些符号约定

目前新闻推荐所存在的问题如下

作者们所提模型具有以下三个特性


下面是模型框架

线上主要包含以下几个部分



特征主要有以下四类

基于强化学习的推荐方法简介如下

Q网络结构图示如下

用户活跃可以用生存分析方法来预估

用户活跃预估图示如下

一周请求数据内的请求间隔分布图示如下

对偶老虎机梯度下降算法在探索中的应用图示如下

下面是数据集信息统计

部分数据分布如下

评价标准有以下几个


参数设置如下

参与对比的几种方法有


离线推荐准确率对比如下

离线累积CTR曲线图示如下

下面是几种方法的线上效果对比

下面是推荐多样性效果对比

其中ils计算公式如下

几种衍生方法的简介如下

我是分割线
您可能感兴趣
普渡大学提出轻量级特征交互算法deeplight大幅加速ctr预估在线服务(已开源)
谷歌和加州大学提出多粒度量化embedding用于大规模类别特征表示
加州大学提出个性化Transformer序列推荐模型SSE-PT(已开源)
ADKDD2017|深度交叉网络DCN在广告点击预估中的应用
更多推荐
所有评论(0)