浅析强化学习与蒙特卡洛树的基本原理
摘要
如今智能科学快速发展,伴随着 Alpha Go/Zero 取得的成果,强化学习(Reinforcement Learning RL)的声望渐渐增强,这是一种能自主地进行动态选择,达到获取最优执行选择(选取最优解)的目的,使得最终回馈的奖励总值达到最大的学习方法。在强化学习的运行环境中,需求一种动态的不定单元,在使用这种动态单元的前提条件下,才能在整个环境模式中进行试验并发现正确的执行选择。蒙特卡洛树的搜索算法中,对问题的多次模拟以及基于模拟结果对最佳下一步的预测可用于强化学习算法。本文基于机器强化学习与蒙特卡洛树的基本原理,浅谈了关于将两者结合运用于人工智能领域的理论
关键词
机器学习;强化学习;蒙特卡洛树;人工智能
全文:
PDF参考
王鹏程. 基于深度强化学习的非完备信息机器博弈
研究[D].哈尔滨工业大学,2017. [2]黄炳强,曹广益,王占全.强化学习原理、算法及应用[J]. 河北工业大学学报,2006(06):34-38. [3]李承奥.基于机器强化学习与蒙特卡洛树的基本原理
及其应用[J].通讯世界,2019,26(02):212-213. [4]许杰. 基于机器学习的医疗健康分类方法研究[D].郑
州大学,2018. [5]林云川. 基于深度学习和蒙特卡洛树搜索的围棋博
弈研究[D].哈尔滨工业大学,2018.
DOI: http://dx.doi.org/10.18686/jsjxt.v1i2.700
Refbacks
- 当前没有refback。