DRN: A Deep Reinforcement Learning Framework for News Recommendation

Guanjie Zheng, Fuzheng Zhang, Zihan Zheng, Yang Xiang, Nicholas Jing Yuan, Xing Xie, Zhenhui Li

Pennsylvania State University, Microsoft Research Asia

http://www.personal.psu.edu/~gjz5038/paper/www2018_reinforceRec/www2018_reinforceRec.pdf

这篇文章提出一种新的深度强化学习框架,用于新闻推荐。在线个性化新闻推荐挑战性很大,这是因为新闻特征和用户偏好是动态变化的。

目前有一些在线推荐模型可以捕捉到新闻推荐的动态属性,但是,这些方法存在三个主要问题。第一,这些模型只尝试对当前奖励(比如CTR)进行建模。第二,很少研究考虑利用用户反馈,而不是点击或者不点击作为标签,比如用户返回的频率,来提升推荐效果。第三,这些方法倾向于对用户推荐相似的新闻,这可能会引起用户的厌倦。

为了解决上述挑战,作者们提出一种基于深层Q-学习的推荐框架,可以对未来奖励精确建模。作者们进一步考虑用户返回的模式,作为点击与否标签的补充,进而可以捕捉更多的用户反馈信息。此外,还融入了一种高效的探索策略用于发现新的有吸引力的新闻推荐给用户。

在线下数据集和线上生产环境中的商业新闻推荐应用中的实验表明作者们所提方法的优越性能。

新闻推荐具有很强的动态变化属性

下面是一个用户10周的兴趣变化趋势

用户多久返回目前还比较缺乏相关研究

现有模型缺陷之一还体现在只推荐相似的商品

作者们所提模型重要特性在于

环境 智能体 状态 行动 奖励跟各个模块的对应关系如下

整个模型图示如下

这篇文章的主要贡献如下

下面是一些符号约定

目前新闻推荐所存在的问题如下

作者们所提模型具有以下三个特性

下面是模型框架

线上主要包含以下几个部分

特征主要有以下四类

基于强化学习的推荐方法简介如下

Q网络结构图示如下

用户活跃可以用生存分析方法来预估

用户活跃预估图示如下

一周请求数据内的请求间隔分布图示如下

对偶老虎机梯度下降算法在探索中的应用图示如下

下面是数据集信息统计

部分数据分布如下

评价标准有以下几个

参数设置如下

参与对比的几种方法有

离线推荐准确率对比如下

离线累积CTR曲线图示如下

下面是几种方法的线上效果对比

下面是推荐多样性效果对比

其中ils计算公式如下

几种衍生方法的简介如下


              我是分割线


您可能感兴趣

中科大等提出深度注意力网络DAM用于捆绑推荐

浙大中科院微软等提出分层注意力网络SHAN用于序列推荐系统

加州大学提出时间间隔自注意力模型用于序列推荐(已开源)

普渡大学提出轻量级特征交互算法deeplight大幅加速ctr预估在线服务(已开源)

谷歌和加州大学提出多粒度量化embedding用于大规模类别特征表示

加州大学提出个性化Transformer序列推荐模型SSE-PT(已开源)

谷歌提出深层哈希embedding用于大规模类别型特征表示

微软提出基于知识图谱的深度神经网络DKN用于新闻推荐

谷歌提出改进版DCN(DCNV2)用于大规模推荐系统

ADKDD2017|深度交叉网络DCN在广告点击预估中的应用

WWW2018|FwFM加权域分解机在CTR预估中的应用

WSDM2020|InterHAt分层注意力可解释CTR预估(已开源)

CIKM2019|Fi-GNN图神经网络学习特征交互在CTR预估中的应用(已开源)

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐