6drn-----深度强化学习在新闻推荐上的应用

lee-yl lee-yl     2022-12-31     387

关键词:

1、摘要:

提出了一种新的深度强化学习框架的新闻推荐。由于新闻特征和用户喜好的动态特性,在线个性化新闻推荐是一个极具挑战性的问题。

虽然已经提出了一些在线推荐模型来解决新闻推荐的动态特性,但是这些方法主要存在三个问题:①只尝试模拟当前的奖励(eg:点击率)②很少考虑使用除了点击 / 不点击标签之外的用户反馈来帮助改进推荐。③ 这些方法往往会向用户推荐类似消息,这可能会导致用户感到厌烦。

基于深度强化学习的推荐框架,该框架可以模拟未来的奖励(点击率)

2、引言:

新闻推荐三个问题:

(1)新闻推荐的动态变化是难以处理的。

(2)用户的兴趣可能随着时间的变化而变化。

(3)创新

强化学习:假定一个智能体(agent),在一个未知的环境中(当前状态state),采取了一个行动(action),然后收获了一个回报(reward),并进入了下一个状态。最终目的是求解一个策略让agent的回报最大化。

因此,本文提出了基于深度强化学习的推荐系统框架来解决上述提到的三个问题:

(1)首先,使用DQN网络来有效建模新闻推荐的动态变化属性,DQN可以将短期回报和长期回报进行有效的模拟。

(2)将用户活跃度作为一种新的反馈信息。

(3)使用Dueling Bandit Gradient Descent 方法来进行有效的探索。

算法的框架如下图所示:

技术分享图片

3、问题描述:

当一个用户 u 在时间 t 向推荐系统 G 发送一个新闻请求,系统会利用一个给定的新闻候选集 I 给用户推荐一个 top-k 列表给用户。

4、模型方法:

4.1 整体架构图:

技术分享图片

几个关键环节:

push:在每一个时刻,用户发送请求时,agent根据当前的state产生k篇新闻推荐给用户。

Feedback:通过用户对推荐新闻的点击行为得到反馈结果。

minor update:在每个时间点过后,根据用户的信息(state)和推荐的新闻(action)以及得到的反馈(reward),更新参数。

major update:在一段时间后,根据DQN的经验池中存放的历史经验,对模型参数进行更新。

 

百度正式发布paddlepaddle深度强化学习框架parl

...冠军!近日,百度正式发布在赛事夺冠中起到关键作用的深度强化学习框架 PaddlePaddlePARL,同时开源了基于该框架的NeurIPS2018强化学习赛事的完整训练代码。点击“阅读原文”可查看冠军解决方案。 PaddlePaddlePARL的名字来... 查看详情

收藏|新南威尔士首篇《深度强化学习推荐系统》综述论文!

...,如有侵权,联系删除转载于:专知摘要鉴于深度强化学习(DRL)在推荐系统研究中的出现,以及近年来取得的丰硕成果,本研究旨在对深度强化学习在推荐系统中的最新发展趋势提供一个及时而全面的概述。我... 查看详情

后深度学习时代,推荐系统向何处去?

近年来,深度学习出现并统治了人工智能领域。推荐系统技术迎来了一次重大的革新,推荐系统正式进入了深度学习时代。学术界尝试用深度学习设计推荐算法,工业界也将深度学习广泛应用于实际项目。01推荐系统... 查看详情

科普|强化学习技术及应用

...。本文通俗语言简洁强化学习原理,马尔科夫过程,以及深度强化学习的应用。 概论随着近些年人工智能领域的发展,机器学习技术被分为监督学习、无监督学习和强化学习三大类。其中对监督学习的研究最为广泛,该方法... 查看详情

百度paddlepaddle再获新技能智能推荐对话系统控制领域都能搞定!

...术越来越广泛的应用于各行各业,而这一切都离不开底层深度学习框架的支持。近日,百度深度学习PaddlePaddle正式发布了强化学习框架PARL,同时开源了基于该框架,在NeurIPS2018强化学习赛事中夺冠的模型完整训练代码,再次向业... 查看详情

百度paddlepaddle再获新技能智能推荐对话系统控制领域都能搞定!

...术越来越广泛的应用于各行各业,而这一切都离不开底层深度学习框架的支持。近日,百度深度学习PaddlePaddle正式发布了强化学习框架PARL,同时开源了基于该框架,在NeurIPS2018强化学习赛事中夺冠的模型完整训练代码,再次向业... 查看详情

总结一下强化学习在工业界应用,给大家扩展一下思路(简易科普)

...成功案例我们已经见证了强化学习的一些突破,比如深度Q网络(DeepQ-Network,DQN)应用于雅达利(Atari)游戏、Alpha 查看详情

深度学习与图神经网络核心技术实践应用高级研修班-day4深度强化学习(deepq-learning)

深度强化学习(DeepQ-learning)1.深度强化学习简介2.DQN算法解析3.DQN在游戏中的应用4.代码讲解4.1数据预处理4.2网络结构4.3Exploration&Exploitation4.4经验回放机制4.5经验存储4.6经验回放1.深度强化学习简介传统的强化学习通常... 查看详情

推荐算法工程师技术栈系列机器学习深度学习--强化学习(代码片段)

目录强化学习基本要素马尔科夫决策过程策略学习(PolicyLearning)时序差分方法(TDmethod)Q-Learning算法Actor-Critic方法DQNDDPG推荐系统强化学习建模附录强化学习基本要素智能体(agent):与环境交互,负责执行动作的主体;环境(Environment):... 查看详情

多智能体深度强化学习(madrl)在大规模交通信号灯控制中的应用

《Multi-AgentDeepReinforcementLearningforLarge-ScaleTrafficSignalControl》IEEETransactiononIntelligenttansportationsystems/2020论文及代码链接https://arxiv.org/abs/1903.04527https://arxiv.org/abs/1903.045271 摘要 查看详情

深度强化学习与深度q网络

...实例。本节笔者将在上一讲的基础上,将强化学习回归到深度学习的主题上。深度强化学习强化学习+深度学习的一个结果就是形成了深度强化学习这样的新领域,本节我们先简单介绍一下深度强化学习,然后来看一下深度神经... 查看详情

通俗讲解强化学习!

...种主要的机器学习方式解释见上图)。上图没有提到深度学习,是因为从学习方式层面上来说,深度学习属于上述四种方式的子集。而强化学习是独立存在的,所以上图单独列出强化学习,而没有列出深度学... 查看详情

深度学习与图神经网络核心技术实践应用高级研修班-day3强化学习(reinforcemenlearning)

...理-网络结构AlphaGo原理-训练过程RL实际应用:FlappyBird-深度卷积神经网络RL实际应用:FlappyBird-DQN算法应用RL实际应用:FlappyBird-实验结果展示强化学习简介强化学习 查看详情

深度强化学习泡沫及路在何方?

一、深度强化学习的泡沫 2015年,DeepMind的VolodymyrMnih等研究员在《自然》杂志上发表论文Human-levelcontrolthroughdeepreinforcementlearning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL)思想的模型DeepQ-Network(DQN),在Atari... 查看详情

深度学习和深度强化学习的区别

强化学习和深度学习是两种技术,只不过深度学习技术可以用到强化学习上,这个就叫深度强化学习.1.强化学习其实也是机器学习的一个分支,但是它与我们常见的机器学习不太一样。它讲究在一系列的情景之下,通过多步恰当... 查看详情

强化学习、深度学习和深度强化学习有啥区别?

】强化学习、深度学习和深度强化学习有啥区别?【英文标题】:What\'sthedifferencebetweenreinforcementlearning,deeplearning,anddeepreinforcementlearning?强化学习、深度学习和深度强化学习有什么区别?【发布时间】:2018-11-0515:46:20【问题描述... 查看详情

深度学习在推荐系统的应用(代码片段)

MMoE模型(Multi-gateMixture-of-Experts)模型原始论文ModelingTaskRelationshipsinMulti-taskLearningwithMulti-gateMixture-of-Experts模型架构模型原理。模型特点基于神经网络的多任务学习本质上就是在多个任务之间加一个共享表示层,从数学上可以证明这... 查看详情

深度强化学习(deepreinforcementlearning)入门:rlbase&dqn-ddpg-a3cintroduction

转自https://zhuanlan.zhihu.com/p/25239682过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题。子曰:温故而知新,在进一步深入研究和应用DRL前,阶段性的整理下相关知识点。本文集中在DRL的model-free... 查看详情