马尔可夫决策过程 - 维基百科
马尔可夫决策过程维基百科,自由的百科全书跳转到导航跳转到搜索甲Markov决策过程(MDP)是一个离散时间的随机控制过程。它提供了一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策建模。MDP对于研究通过动态规划和强化学习解决的优化问题很有用。MDP至少早在1950年代就已为人所知。[1]马氏决策过程研究的核心是罗纳德·霍华德(RonaldHoward)在1960年出版的《动态规划和马氏过程》一书。。[2]它们用于许多学科,包括机器人技术,自动控制,经济学和制造。MDP的名称来自俄
最近的文章

蒙特卡罗方法 - 维基百科

蒙特卡罗方法维基百科,自由的百科全书跳到导航跳到搜索蒙特卡罗方法(英语:MonteCarlomethod),也称统计模拟方法,是1940年代中期由于科学技术的发展和电子计算机的发明,而提出的一种以概率统计理论为指导的数值计算方法。是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。20世纪40年代,在科学家冯·诺伊曼、斯塔尼斯拉夫·乌拉姆和尼古拉斯·梅特罗波利斯于洛斯阿拉莫斯国家实验室为核武器计划工作时,发明了蒙特卡罗方法。因为乌拉姆的叔叔经常在摩纳哥的蒙特卡洛赌场输钱得名,而蒙特卡罗…

蒙特卡罗方法继续阅读
更早的文章

均值漂移-维基百科

平均移动维基百科,自由的百科全书跳转到导航跳转到搜索均值平移是一种用于定位密度函数最大值的非参数特征空间分析技术,即所谓的模式寻找算法。[1]应用领域包括聚类分析在计算机视觉和图像处理。[2]内容1历史2概述3细节4种内核5应用5.1聚类5.2追踪5.3平滑6个优点7个弱点8可用性9另请参见10参考历史平均移位程序最初由Fukunaga和Hostetler于1975年提出。[3]总览均值偏移是用于定位所述最大值-所述一个程序模式-of密度函数从该函数取样给定的离散数据。[1]这是一种迭代方法,我…

均值漂移继续阅读