姜峰, 郑兆青[1]2004年在《在概率阈值准则下马尔可夫策略的最优化算法》文中研究表明在一种新的概率阈值准则下讨论马尔可夫决策的最优解的算法问题.采用基于增益的过去累积值的方法,求解马尔可夫最优策略.
姜峰[2]2002年在《在概率阈值准则下的马尔可夫策略的两种算法》文中提出马尔可夫决策过程(Markov Decision Processes,简称MDP,又称序贯随机最优化、随机最优控制、受控的马尔可夫过程或随机动态规划)是研究随机序贯决策的问题的理论。其主要研究对象是转移结构受控的随机系统,根据系统的状态,决策者(如人类或计算机)选取一个策略来控制或影响系统的转移,从而每个策略可定义一个随机过程和相应于该过程的目标函数值,MDP的目的是选取一个好的控制策略。本文在一种新的准则下讨论决策的最优解的算法问题,在文中我们称之为概率阈值准则。为研究概率阈值最优化的问题,利用马尔可夫策略,采用两种方法求解最优策略。第一种方法是基于增益的过去累积值的方法,我们考虑到第n阶段为止的增益累积值随机变量列,以及它取得的过去值集合列,得到它的总增益,进一步把本来的状态空间X上,将过去值集合附加上去,形成一个扩大的状态空间。在这个新的状态空间上考虑马尔可夫最优策略。第二种方法是基于未来阈值的方法,在马尔可夫阈值概率最优化的问题上,对于以马尔可夫转移的本来状态变量,引入随时间而变化的将来的阈值,并作为新的状态变量,在其新的马尔可夫转移的基础上,把所给予的阈值概率最小化,从中得到最优马尔可夫策略。为说明问题,本文利用Bellman和Zadeh[1]的数值例,应用两种方法进行分析,最后为了更方便的解出对所有形式的评价函数,及其期望值的最优化解对各种进行的发展,把经过多阶段概率决策过程的问题记述下来,构成一个最优解的统一图表,引入了多段概率决策树表。
参考文献:
[1]. 在概率阈值准则下马尔可夫策略的最优化算法[J]. 姜峰, 郑兆青. 山东理工大学学报(自然科学版). 2004
[2]. 在概率阈值准则下的马尔可夫策略的两种算法[D]. 姜峰. 华东师范大学. 2002
标签:数学论文; 马尔可夫论文; 马尔可夫决策过程论文; 姜峰论文;