基于自适应势函数塑造奖赏机制的梯度下降Sarsa(?)算法

肖飞; 刘全; 傅启明; 孙洪坤; 高龙

doi:1000-436X(2013)01-0077-12

您当前的位置：

首页 >

文章列表页 >

基于自适应势函数塑造奖赏机制的梯度下降Sarsa(?)算法

学术论文 | 更新时间：2024-06-05

- 基于自适应势函数塑造奖赏机制的梯度下降Sarsa(?)算法
- Gradient descent Sarsa(?)algorithm based on the adaptive potential function shaping reward mechanism
- “在强化学习领域，专家提出自适应势函数改进算法，利用ANRBF网络塑造奖赏机制，有效提升算法初始性能和收敛速度。”
- 通信学报 2013年34卷第1期页码：77-89
- 作者机构：
  
  1. 苏州大学计算机科学与技术学院，江苏苏州 215006
  2. 吉林大学符号计算与知识工程教育部重点实验室，吉林长春 130012
- 作者简介：
  
  [ "肖飞（1988-），男，江苏沭阳人，苏州大学硕士生，主要研究方向为强化学习。" ]
  [ "刘全（1969-），男，内蒙古牙克石人，苏州大学教授、博士生导师，主要研究方向为强化学习、智能信息处理和自动推理。" ]
  [ "傅启明（1985-），男，江苏淮安人，苏州大学博士生，主要研究方向为强化学习、贝叶斯推理和遗传算法。" ]
  [ "孙洪坤（1988-），男，江苏淮安人，苏州大学硕士生，主要研究方向为强化学习。" ]
  [ "高龙（1988-），男，江苏盐城人，苏州大学硕士生，主要研究方向为贝叶斯推理。" ]
- 基金信息：
  
  国家自然科学基金资助项目(61070223);国家自然科学基金资助项目(61103045);国家自然科学基金资助项目(61070122);国家自然科学基金资助项目(61272005);江苏省自然科学基金资助项目(BK2012616);江苏省高校自然科学研究基金资助项目(09KJA520002);江苏省高校自然科学研究基金资助项目(09KJB520012);吉林大学符号计算与知识工程教育部重点实验室基金资助项目(93K172012K04)
- DOI：1000-436X(2013)01-0077-12
  中图分类号： TP181
- 网络出版日期：2013-01，
  
  纸质出版日期：2013-01-25
- 稿件说明：
移动端阅览
肖飞, 刘全, 傅启明, 等. 基于自适应势函数塑造奖赏机制的梯度下降Sarsa(?)算法[J]. 通信学报, 2013,34(1):77-89.

Fei XIAO, Quan LIU, Qi-ming FU, et al. Gradient descent Sarsa(?)algorithm based on the adaptive potential function shaping reward mechanism[J]. Journal on communications, 2013, 34(1): 77-89.
肖飞, 刘全, 傅启明, 等. 基于自适应势函数塑造奖赏机制的梯度下降Sarsa(?)算法[J]. 通信学报, 2013,34(1):77-89. DOI： 1000-436X(2013)01-0077-12.

Fei XIAO, Quan LIU, Qi-ming FU, et al. Gradient descent Sarsa(?)algorithm based on the adaptive potential function shaping reward mechanism[J]. Journal on communications, 2013, 34(1): 77-89. DOI： 1000-436X(2013)01-0077-12.

浏览量

下载量

CSCD

文章被引用时，请邮件提醒。

提交

工具集

关联资源

基于软提示微调和强化学习的网络安全命名实体识别方法研究

基于审计博弈的安全协作频谱感知方案

基于强化学习的在线离线混部云环境下的调度框架

基于深度强化学习的微服务多维动态防御策略研究

面向智能渗透攻击的欺骗防御方法

基于自适应势函数塑造奖赏机制的梯度下降Sarsa(?)算法

Gradient descent Sarsa(?)algorithm based on the adaptive potential function shaping reward mechanism

DOI：1000-436X(2013)01-0077-12