您当前的位置:
首页 >
文章列表页 >
基于自适应势函数塑造奖赏机制的梯度下降Sarsa(?)算法
学术论文 | 更新时间:2024-06-05
    • 基于自适应势函数塑造奖赏机制的梯度下降Sarsa(?)算法

    • Gradient descent Sarsa(?)algorithm based on the adaptive potential function shaping reward mechanism

    • 在强化学习领域,专家提出自适应势函数改进算法,利用ANRBF网络塑造奖赏机制,有效提升算法初始性能和收敛速度。
    • 通信学报   2013年34卷第1期 页码:77-89
    • DOI:1000-436X(2013)01-0077-12    

      中图分类号: TP181
    • 网络出版日期:2013-01

      纸质出版日期:2013-01-25

    移动端阅览

  • 肖飞, 刘全, 傅启明, 等. 基于自适应势函数塑造奖赏机制的梯度下降Sarsa(?)算法[J]. 通信学报, 2013,34(1):77-89. DOI: 1000-436X(2013)01-0077-12.

    Fei XIAO, Quan LIU, Qi-ming FU, et al. Gradient descent Sarsa(?)algorithm based on the adaptive potential function shaping reward mechanism[J]. Journal on communications, 2013, 34(1): 77-89. DOI: 1000-436X(2013)01-0077-12.

  •  
  •  

0

浏览量

4

下载量

4

CSCD

文章被引用时,请邮件提醒。
提交
工具集
下载
参考文献导出
分享
收藏
添加至我的专辑

相关文章

基于软提示微调和强化学习的网络安全命名实体识别方法研究
基于审计博弈的安全协作频谱感知方案
基于强化学习的在线离线混部云环境下的调度框架
基于深度强化学习的微服务多维动态防御策略研究
面向智能渗透攻击的欺骗防御方法

相关作者

田泽庶
刘春雨
张云婷
张嘉宇
孟超
张宏莉
王云涛
苏洲

相关机构

哈尔滨工业大学计算学部
上海大学机电工程与自动化学院
西安交通大学网络空间安全学院
北京大学计算机学院
南开大学软件学院
0