您的位置首页  学习

学习收获_学有收获的表达词

  • 来源:互联网
  • |
  • 2025-04-27
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

强化学习中的国概念评解。核心概念:回报(Returm)。星强化学习中用于评估长期收益的指标,通过对未来奖励目的:帮助智能体在不同时间点的奖励之奖励的权重(通常yE[0.1)。

学习收获_学有收获的表达词

 

强化学习中的国概念评解核心概念:回报(Returm)星强化学习中用于评估长期收益的指标,通过对未来奖励目的:帮助智能体在不同时间点的奖励之奖励的权重(通常yE[0.1)在上一个视频中您看到了强化学习应用中的状态以及根据您采取的行动,您会经历不同状态并收获不同奖励,但如何判断一组奖励比另一组更好?本视频将要定义的强化学习中的回报概念可帮助我们理解这一点。

举个形象的例子,假设脚下有一张随时可以捡起的五美元钞票,或是穿越城镇半小时后能见到一张十美元钞票,您更倾向于选择哪个?显然十美元比五美元更有吸引力,但若需要步行半小时才能获得那张十美元,或许直接捡起脚下的五美元反而更加便利。

因此回报这个概念体现了越早获得的奖励可能比需要长时间才能获得的奖励更具吸引力让我们具体看看其中的运作机制以这个火星车来说,如果从状态四开始移动,选择向左走,首先在状态四时获得的奖励是零,到状态三十奖励零,状态二十奖励零,最终到达终止状态一时获得一百奖励。

总回报被定义为这些奖励的总和,但需要乘以一个额外权重系数,这个系数被称为折扣因子gamma

折扣因子是个略小于一的数值,这里我们选择gamma等于零点九作为视力,在第一阶段获得的领奖励会被gamma零乘以零,第二阶段奖励用gamma一乘以零,进行这些运算后最终计算出的总回报是零点七二九。

智能体们经历一系列状态于第一步获得奖励二一,第二步获得奖励二二,第三步获得则奖励二三,以此类推则总回报为r e 加上折扣因子gamma这里的希腊字母gamma在本例中设为零点九,即gamma乘以二二加上gamma平方乘以二三,再加上gamma立方乘以二四,如此持续直至终止状态。

折扣因子该卖的作用在于使强化学习算法产生急功近利的倾向,总回报对第一步奖励给予全额权重及一倍的二一,但对第二步获得的奖励会打折扣,即乘以零点九,对第三部的二三奖励权重更小,gamma平方后续奖励的权重逐级衰减,因此越早获得的奖励对总回报贡献越大。

在众多学习算法的报告中,折扣因子的一个常见选择是接近一的数,比如零点九、零点九九甚至零点九九九,但出于视力目的,在我将要使用的运行案例中,我实际会使用零点五作为折扣因子,这样做会大幅衰减未来奖励因为每多经历一个时间不长,奖励的折算率就只有前一不长的一半,因此如果该。

等于零点五

上面案例的回报计算结果将为零加上零点五乘零替换顶端的等式,再加上零点五平方乘零,最后加上零点五立方程一百,这是最后一次奖励。因为状态一是终止状态,最终得出的回报值为十二点五。

在金融应用中折扣因子也可以很自然的解释为利率或资金的货币时间价值。因此如果你现在持有的一美元,其价值可能略高于未来才能获得的一美元。因为即使是当下这一美元存入银行或投资生息后,一年后其价值也会增长。

金融应用中折现因子通常体现了未来一美元相较于当下的一美元的贬值幅度,让我们看些具体的回报率实例您获得的回报取决于所获奖励,而奖励又取决于您采取的行动因此最终回报与您采取的操作链是相关沿用经典案例来解释,假设在本例中我将持续选择左移操作,我们已经在前文看到若初始状态为状态四,计算得出的回报率是十二点五。

这是上一页幻灯片已推演过的结果经推导发现如果初始状态设定为状态二的情况下

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186