马尔可夫决策过程维基百科,自由的百科全书跳转到导航跳转到搜索甲Markov决策过程(MDP)是一个离散时间的随机控制过程。它提供了一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策建模。MDP对于研究通过动态规划和强化学习解决的优化问题很有用。MDP至少早在1950年代就已为人所知。[1]马氏决策过程研究的核心是罗纳德·霍华德(RonaldHoward)在1960年出版的《动态规划和马氏过程》一书。。[2]它们用于许多学科,包括机器人技术,自动控制,经济学和制造。MDP的名称来自俄