族谱网 头条 人物百科

贝尔曼方程

2017-10-16
出处:族谱网
作者:阿族小谱
浏览:750
转发:0
评论:0
动态规划中的解析概念想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch.III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(StateVariables)”,或简称“状态(State)”,当然也可能还有其他的种类。从任意时点上所挑选以操作的变数通常称为“控制变数(ControlVariables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控...

动态规划中的解析概念

想了解贝尔曼方程,要先了解许多相关概念。首先,任何最佳化问题都有目标:旅行时间最小化、成本最小化、利润最大化、效用最大化等。用来描述目标的数学函数就称为目标函数。

动态规划将多期规划问题转为不同时间点上较简单的步骤,因此,它需要追踪决策背景情况随时间的变化。作正确决策所需要当前情况的资讯被称作是“状态(State)”(贝尔曼,1957,Ch. III.2)。例如,为了决定每个时间要花多少钱,人们必须要知道他们初始财富的量,此例中财富就是一种“状态变数(State Variables)”,或简称“状态(State)”,当然也可能还有其他的种类。

从任意时点上所挑选以操作的变数通常称为“控制变数(Control Variables)”,或简称“控制(Control)”(控制理论中描述输入的变数)。例如给定现在所具有的财富(状态),人们便可以用以决定当下的消费(控制变数)。挑选当下的控制变数可被视为挑选下个状态,广义而言,下个状态受到当下控制变数及其他因子的影响。举个简单的例子:今天的财富(状态)及消费(控制变数)会决定明天的财富(新的状态),虽然通常也还有其他的因素可以影响明天的财富(例如获得意外之财)。

动态规划方法中利用“找寻某种规则告诉我们各可能状态下的(最佳)控制为何”来达成目标函数最佳化。例如:假设消费(c)只与财富(W)相关,我们想要找到一套规则c(W){\displaystyle c(W)}来以财富描述消费。这些“将控制(Controls)表示成状态(States)的函数”的规则被称为策略函数(Policy Function)。

从定义可知,最佳化目标函数的策略乃是所有可能的策略函数中,其对应到目标函数值最佳者。沿用上述的例子,若某人利用给定的财富来消费以最大化快乐的感觉(这里假定“快乐的感觉”可以被数学函数描述,像是效用函数等),那么各种初始的财富便会对应到一个可能的最大快乐,表示成H(W){\displaystyle H(W)}。这个最大的可能目标函数值(快乐的感觉),即是价值函数(Value Function)。

贝尔曼方程的推导

动态决策问题

贝尔曼最佳化原理

贝尔曼方程

贝尔曼方程在随机问题的应用

解法

经济学上的应用

例子


免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。

——— 没有了 ———
编辑:阿族小谱

更多文章

更多精彩文章
评论 {{commentTotal}} 文明上网理性发言,请遵守《新闻评论服务协议》
游客
发表评论
  • {{item.userName}} 举报

    {{item.content}}

    {{item.time}} {{item.replyListShow ? '收起' : '展开'}}评论 {{curReplyId == item.id ? '取消回复' : '回复'}}

    回复评论
加载更多评论
打赏作者
“感谢您的打赏,我会更努力的创作”
— 请选择您要打赏的金额 —
{{item.label}}
{{item.label}}
打赏成功!
“感谢您的打赏,我会更努力的创作”
返回
打赏
私信

推荐阅读

· 贝尔曼-福特算法
算法在这个图中,假设A是起点,并且边以最坏的顺序处理,从右到左,需要|V|−1步或4次计算路径长度。相反地,若边以最优顺序处理,从左到右,算法只需要在一次遍历内完成。贝尔曼-福特算法与迪科斯彻算法类似,都以松弛操作为基础,即估计的最短路径值渐渐地被更加准确的值替代,直至得到最优解。在两个算法中,计算时每个边之间的估计距离值都比真实值大,并且被新找到路径的最小长度替代。然而,迪科斯彻算法以贪心法选取未被处理的具有最小权值的节点,然后对其的出边进行松弛操作;而贝尔曼-福特算法简单地对所有边进行松弛操作,共|V|−1次,其中|V|是图的点的数量。在重复地计算中,已计算得到正确的距离的边的数量不断增加,直到所有边都计算得到了正确的路径。这样的策略使得贝尔曼-福特算法比迪科斯彻算法适用于更多种类的输入。贝尔曼-福特算法的最多运行O(|V|·|E|)次,|V|和|E|分别是节点和边的数量)。伪代码表示...
· 罗贝尔·舒曼
生平罗贝尔·舒曼的父亲为法国公民,出生于与卢森堡市,母语为卢森堡语。1871年随着洛林被德意志帝国兼并,他的父亲成为德国公民。罗贝尔·舒曼的母亲出生于卢森堡,和他的父亲结婚后取得德国国籍。虽然罗贝尔·舒曼在卢森堡市出生,但他出生时的国籍是德国,母语是卢森堡语。德语是他的第一外语,而法语直到他上学之后才开始学习,因此他一生当中说法语时都带有口音。1896年-1903年,罗贝尔·舒曼在卢森堡上文科高中,并在梅斯取得高中毕业证书。1904年他开始在波恩大学学习法律,后来又相继在慕尼黑、柏林和斯特拉斯堡学习。1908年他在梅斯通过了德国第一国家考试(在德国要成为律师必须进行两次国家考试,两次考试期间为律师实习期)并在那里进行律师实习。1910年以24岁的年龄在柏林取得法学的博士学位。1912年他通过第二国家考试并在梅斯成为一名律师。政治生涯罗贝尔·舒曼(政治家)之墓第一次世界大战中罗贝尔·舒曼担任...
· 理查德·贝尔曼
外部链接IEEEHistoryCenter-Legacies(英文)
· 弗里德曼方程
假设弗里德曼方程所基于的假设是宇宙在空间上是均一且各向同性的;从今天的经验来看,这个假设在大于一亿秒差距的尺度上是合理的。这个假设要求宇宙的度规具有如下形式:其中宇宙标度因子a(t){\displaystylea(t)\,}只与时间有关,因而三维空间度规ds32{\displaystyleds_{3}^{2}\,}必须是下面三种形式之一:平直空间(曲率处处为零)具有常数正曲率的三维球面具有常数负曲率的三维双曲面在下面的讨论中,这三种情形各自对应着一个参数k的值,分别为0,1,-1。而a(t){\displaystylea(t)\,}被称作宇宙标度因子,它能够通过爱因斯坦场方程和宇宙间物质的能量和应力联系。方程描述一个均一且各向同性的膨胀宇宙模型需要两个独立的弗里德曼方程,它们是这一方程来自爱因斯坦场方程的00分量;以及这一方程来自爱因斯坦场方程的迹。其中G,ΛΛ-->,c{\disp...
· 亨利·甘贝尔-班纳曼
行业时间线亨利·甘贝尔-班纳曼亨利·甘贝尔-班纳曼爵士,GCB(SirHenryCampbell-Bannerman,1836年9月7日-1908年4月22日),英国自由党政治家,1905年至1908年出任英国首相,他是历史上首位正式被官方称为“首相”的第一财政大臣。人物生平1836年9月7日出生于在苏格兰的格拉斯哥城。就读于格拉斯哥大学及剑桥大学三一学院。出1868年,他首次获选为下议院议员;历任陆军部财务大臣(1871年-1874年和1880年-1882年),海军部政务次官兼财政大臣和下院发言人(1882-1884)。1884年-1885年坎贝尔担任爱尔兰首席大臣。1886年及1892-95年担任陆军大臣。1895年6月21日,他说服维多利亚女王的堂兄第二代剑桥公爵从武装部队总司令的职务上引退。这位公爵在其39年的任期内,阻止军队的改组。女王认识到这一变得的必要性,封亨利·甘贝尔-班纳...

关于我们

关注族谱网 微信公众号,每日及时查看相关推荐,订阅互动等。

APP下载

下载族谱APP 微信公众号,每日及时查看
扫一扫添加客服微信