欢迎来到专业的米粒范文网平台! 心得体会 工作总结 工作计划 申请书 思想汇报 事迹材料 述职报告 教学设计
当前位置:首页 > 范文大全 > 党史学习 > 正文

分层强化学习及应用

时间:2022-08-27 16:05:19 来源:网友投稿

下面是小编为大家整理的分层强化学习及应用,供大家参考。

分层强化学习及应用

 

 分层强化学习及应用 张书怡 (北京邮电大学通信与信息工程学院,北京 )

 摘

 要:分层强化学习因为能够解决其维数灾难问题,使得其在环境更为复杂,动作空间更大的环境中表现出更加优异的处理能力,对其的研究在近几年不断升温。其中,作为机器学习和人工智能领域的一个重要分支,多智能体分层强化学习以一种通用的形式将多智能体的协作能力与强化学习的决策能力相结合,并通过将复杂的强化学习问题分解成若干个子问题并分别解决,可以有效解决空间维数灾难问题.这也使得多智能体分层强化学习成为解决大规模复杂背景下智能决策问题的一种潜在途径.首先对分层强化学习中涉及的基础理论与原理进行阐述,包括强化学习,半马尔可夫决策过程;然后基于分层的角度,对分层强化学习方法的算法原理进行了综述;对 Option、HAMs、MAXQ 等经典分层强化学习算法进行介绍,最后介绍了分层强化学习在抗干扰性的应用. 关键词:分层强化学习;分层强化学习理论;经典分层强化学习方法;抗干扰性 中图分类号:TN92 文献标识码:A Hierarchical Reinforcement Learning

 ZHANG Shuyi ( School of Communication and Information Engineering, Beijing University of Posts and Telecommunications, Beijing) Abstract: Because layered reinforcement learning can solve its dimension disaster problem, it can show better processing ability in a more complex environment with larger action space. The research on it has been heating up in recent

 them, as in the field of machine learning and artificial intelligence is an important branch of multi-agent hierarchical reinforce-ment learning will be in the form of a generic multi-agent collaboration ability combined with reinforcement learning de-cision-making ability, and through the complex reinforcement learning decomposed into several sub problems and solve, can effectively solve the space dimension disaster

 makes multi-agent layered reinforcement learning a potential ap-proach to solve intelligent decision making problems in large-scale complex ly, the basic theories and principles involved in layered reinforcement learning are described, including reinforcement learning and semi-Markov decision , the algo-rithm principle of the layered reinforcement learning method is summarized from the perspective of layered reinforce-ment

 paper introduces the classical layered reinforcement learning algorithms such as Option, HAMs and MAXQ, and finally introduces the application of layered reinforcement learning in anti-interference.

 Key words: hierarchical reinforcement learning; hierarchical reinforcement learning theory; classical layered reinforce-ment learning method; interference resistance

  1

 引言 随着强化学习愈发体现其强大的学习能力,对其 的 研 究 在 近 几 年 不 断 升 温 。

 强 化 学 习(Reinforcement Learning,RL)是机器学习的一个重要分支,它是智能体(Agent)根据自身状态(State)采取动作(Action)与环境进行交互获取奖励,最终完成一个最优策略使奖励最大化。2017 年最具影响力的 Alpha Go 大胜世界围棋冠军李世石和柯洁事件,其核心算法就是强化学习算法。但在传统强化学习中面临着维数灾难的问题,因为所有强化学习的方法都把状态动作空间视为一个巨大的、平坦的搜索空间,这也就意味着一旦环境较为复杂,状态动作空间过大,将会导致起始状态到目标状态的路径非常长,需要学习参数以及学习过程中的存储空间将会非常大,使得学习的难度成指数增加,并且强化学习效率以及效果不尽如人意。之后随着深度学习的再次兴起,其强大的探索能力受到了广大科研人员的热捧,于是结合两者深度强化学习也就此应运而生,深度强化学习不仅具有强大的探索能力,对于复杂的环境状态都能够有一个良好的处理,但当智能体具有复杂动作空间时,其依旧不能取得良好的结果,使得强化学习的发展再次碰触到了瓶颈。为解决强化学习发展的瓶颈问题,研究者们将分层的思想加入强化学习中。

 近年来,随着移动设备之间交换越来越多的私有敏感数据,通信安全问题受到了广泛的关注,如干扰攻击等。在抗干扰领域,跳频是一种常见的方法,引起了人们的广泛关注。然而,传统的跳频抗干扰方法通常采用非重叠信道(NOC),相邻信道之间需要充分的频谱分离,以避免频谱泄漏造成的干扰。导致频谱资源利用不足。部分重叠信道(POC)增加了可用信道的数量,被认为是解决频谱资源短缺和提高通信吞吐量的一种很有前途的方法。不幸的是,由于信道之间的部分重叠,POC 在用户之间造成了更严重的相互干扰。这给抗干扰系统的信道分配带来了更大的困难。一方面,对不同网络中的POC 分配,即游戏学习进行了一些研究。遗传算法图着色。但由于它们都是在无干扰的情况下,这些方法都显式地或隐式地包含了静态环境的假设,即在算法收敛过程中信道状态是相对稳定的。然而,这一假设在动态干扰环境下是不成立的,这些研究成果不能应用于动态干扰场景中。另一方面,恶意干扰及其动态变化对固有的复杂信道分配问题提出了更大的挑战。用户必须同时处理外部恶意干扰和用户间的相互干扰。现有的动态频谱抗干扰研究主要集中在 NOC 方面。例如文学结合深层 q-网络和演员-批评家算法,处理连续高维的抗干扰策略;文献[16 考虑到用户之间的信息交互和协作,提出了一种基于联合 Q 学习的抗干扰方法。利用马尔可夫决策过程,在知识完备的前提下,分析用户与干扰者之间的交互关系。

 本文主要的研究工作如下。

 综述分层强化学习的理论基础。

 综述分层强化学习的基本原理。

 综述分层强化学习几种典型的学习方法。

 讲述一个通信中分层强化学习抗干扰应用的方法。

 2

 分层强化学习理论基础 2.1 马尔科夫决策过程

 强化学习是学习一种从情景到动作的映射,以此来使得标量奖励或强化信号最大[2]。强化学习的目标是给定一个马尔科夫决策过程(Markov Deci-sion Process,MDP),寻找最优策略π。强化学习的学习过程是动态的,其数据通过在不断与环境进行交互来产生并不断更新,马尔科夫决策过程有元组(S,A,P,R,γ)描述,其中 S 为有限的状态集,A 为有限的动作集,P 为状态转移概率,R 为回报函数,γ为折扣因子,用于计算累积回报。当一个智能体(agent)根据与环境的交互采取一个动作α后,它会获得一个即时收益 reward,然后根据其状态转移概率 P 到达下一状态 st+1,同时由于马尔科夫性,下一个状态 st+1 仅与当前状态 st 相关,所以每次做出决策时不用考虑历史状态,最终根据其累积奖励构成的状态值函数和状态-行为值函数,来学习到最优策略。

 2.2 半马尔科夫决策过程 马尔科夫决策过程根据当前状态st选择一个动作后,会根据状态转移概率 P 和策略π跳转至下一状态 st+1,而且根据马尔科夫性其下一状态 st+1 仅与当前状态 st 有关。但由于在一些情况下,多个动

 作在多个时间步骤完成后才能体现出其真正的价值,对于这类情况 MDP 无法进行较好的优化处理,所 以 研 究 人 员 引 入 半 马 尔 科 夫 决 策 过 程SMDP(Semi-Markov Decision Process)[3],SMDP 是依赖历史状态的策略,两者的状态变化如图 1。Sutton 提出对于任何 MDP,以及在该 MDP 上定义任何一组 option,仅在这些 option 中进行选择并执行每个option以终止决策的过程就是SMDP。SMDP包括一组状态、一组动作,对于每对状态与动作都有一个累积折扣收益,同时与下一个状态和 transit time 有一个明确的联合分布。

 图 图 1 MDP 与 与 SMDP 状态比较

  在 SMDP 中,两个决策之间的时间间隔为τ,τ既可以是实数也可以是整数。当为实数时,SMDP建模连续时间离散事件系统(continuous-time dis-crete-event systems)[5] , 在 离 散 时 间(discrete-time)SMDP[5]中,只能在底层时间步的整数倍的时间上做决策,离散时间 SMDP 是大多数分层强化学习算法的基础,同时也可以推广到连续时间上。在 SMDP 中,在某一状态 s 采取动作后,经过τ时间后才会以某一概率转移至下一状态 s′,此时是状态 s 和时间τ的联合概率写作 P(s′,τ|s,α),预期奖励为 R(s,α),状态值函数和状态-行为值函数的贝尔曼方程为:

 3

 分层强化学习原理 3.1

  RL 基本原理 Watkins 定义 RL 为“Agent 为适应环境而采取的主动试探学习”, 表现为: (1) 环境反馈的好坏信息能够描述试探动作的适应性;

 (2) 知识学习是从行动—评价过程开展的, 即逐步形成适应环境的行为策略。在 RL 中, Agent 感知环境状态并执行相关动作, 获得环境反馈的奖励或者惩罚等评价值, 通过增强产生奖励的行为策略, 或者减弱产生惩罚的行为策略, 以实现从环境状态到行为映射策略学习。Agent 对环境执行动作, 导致环境状态改变并获得反馈奖赏, 若其为正奖励则增强该动作, 若为负奖励则削弱该动作, Agent 根据r和s选择执行下一个行为, 从而促使其学习到使正奖励概率增大的策略。

 基本强化学习模型如图 2 所示, 其中, 状态感知模块感知外部环境反馈状态并映射为对应内部感知状态;动作选择模块完成从状态映射到动作的选择与执行过程, 导致环境状态改变;学习模块根据内部感知状态与环境反馈的奖赏值以学习策略。其基本过程为:Agent根据环境状态改变内部感知状态并映射为特定行为a, 执行a导致环境状态s改变为s′并获得反馈奖赏r, 学习模块判断r, 若其为正奖励则增强行为 a, 否则削弱 a, A根据 r和 s选择执行下一个行为, 以保证学习到使正奖赏概率增大的策略, 重复该过程直到学习收敛。

 图 图 2 基本强化学习模型

 3.2

 MDP 与 RL 理想情况下, RL 的状态描述了 Agent 与环境交互并获得的一切信息。如果状态能保持 Agent 决策所需的历史信息并能被概括出决策支持信息, 则称该状态具有马尔科夫特性。假设存在有限数量的状态与奖赏值, 在t+1时刻的一般化环境与t时刻执行的行为响应, 对于所有s′、r以及st, at, rt, …, r1, s0, a0, 环境动态特性仅通过指定完整概率分布而被定义为[9]:

 Pr{st+1=s′, rt+1=r|st, at, rt, st-1, at-1, ∧, r1, s0, a0}

 (1)

 如果状态信号具有马尔科夫特性, 则在 t+1 时刻的环境响应仅取决于在 t 时刻的状态与行为表达形式, 对于所有的 s′, r, st, at, 则定义环境动态特性为: Pr{st+1=s′, rt+1=r|st, at}

 (2)

 当式 (1) 与 (2) 相等时, 该状态具有马尔科夫特性, 被称为一个马尔科夫状态, 此时选择满足马尔科夫状态行为的最优策略与选择完整历史状态信息的策略是一致的, 可依据式 (2) 从当前状态与动作中预测下一状态与期望回报值, 反复迭代即可从当前状态以及所有的已有历史信息中预测出未来所有状态与期望回报。

 定义 1 若 RL 任务符合马尔科夫特性, 则被称为 MDP, 若其状态及行为有限, 则被称为有限马尔科夫决策过程 (Infinite Markov Decision Processes, IMDP) , 其定义为 5 元组 IMDP=<S, A (s) , 其中: (1) S 为状态空间, 描述 Agent 环境中包括 s′、s的所有可能状态。

 (2) A (s) 为 Agent 在状态 s 下所有可执行动作的集合。

 (3) 根据环境的单步动态特性与状态行为集, 可得状态转换概率函数:S×A (s) ×S→[0, 1]与奖赏函数 S×A (s) →IR, IR 为实数集。对于给定状态 s 与行为 a, 下一状态 s′的转移概率与期望奖赏分别为:

  (3)

 (4)

 (4) Vπ 为 Cristerion 函数, 在状态 s∈S 与行为a∈A (s) 的映射关系中, 策略 π 描述在状态 s 下执行行为a的概率π (s, a) , 用Vπ (s) 表示在状态s 开始执行策略 π 的期望状态返回值, 即策略 π下的状态值函数, 且

  (5)

 类似地, 在执行策略π时, 从状态s开始执行行为a的期望返回值用状态行为对函数Qπ (s, a) 进行描述, 且

  (6)

 对于任一策略π与状态 s, 值函数体现出递归关系, 满足 Bellman 一致性条件, 即

 (7)

 在 IMDP 中, 对于所有状态 s∈S, 当且仅当Agent 执行策略π的期望返回值大于或等于执行策略π′的期望返回值,即 Vπ (s) ≥Vπ′ (s) , 则称π优于π′, 记为π≥π′ 。在所有策略中的最优策略记为π*, 其最优状态值函数为 V*满足上式

 , 且

  (8)

 V*的Bellman最优等式表明在最优策略下的状态值必须等于该状态最优行为的期望返回值, 即

 (9)

 类似地, 最优状态行为值函数 Q*为

  (10)

 4

 典型的分层强化学习方法 分层强化学习本质是将较为复杂的强化学习

 问题进行分解,将大问题分解为一系列子问题,之后给出子问题的解决策略,从而得出解决整体问题的最优化策略。在分层强化学习中,抽象的思想贯穿始终,其通常对于子任务进行抽象,将其多个动作进行封装抽象为一个策略动作,在 MDP 系统中下一状态仅与当前状态有关,而与之前状态无关,所以在底层策略中采用 MDP,但在高层策略中,其虽然将子任务抽象成一个策略动作,近似看作一个动作,但其内在存在一系列动作,在高层策略选择子策略后,经过子策略一段...

推荐访问:分层强化学习及应用 分层 强化 学习

猜你喜欢