2021年9月29日 星期三

【环球快播报】RL 的探索策略 | Exploration for RL

时间:2023-04-06 22:28:00来源 : 博客园


(资料图)

最近在草率地调研 RL 的 exploration。这篇文章也比较草率,仅能起到辅助作用,不能代替读 review 或更精细的读 paper。

目录
  • 1 主要参考资料
  • 2 RL 的主流 exploration 方法
    • 2.1 经典 exploration 方法
    • 2.2 prediction-based method:
      • 学习 env 的 dynamics
      • 不学 env dynamics 了
    • 2.3 memory-based method
    • 2.4 其他

1 主要参考资料

  • https://www.sciencedirect.com/science/article/pii/S1566253522000288
    • 一篇 review,感觉不太好读。
  • https://lilianweng.github.io/posts/2020-06-07-exploration-drl/
    • 很好的博客,主要参考它。
  • https://journals.sagepub.com/doi/10.1177/1729881418775849
    • 18 年的 review,关于 memory-based exploration,还没读。
  • 一些可爱的 new bing。

2 RL 的主流 exploration 方法

在 review(第一个参考资料)中,exploration 的研究有两种动机:效率动机 与 安全动机。前者希望 exploration 能帮助 RL 尽快学会,而后者希望 RL 试错学习的过程中 保证安全性。

  • 安全动机的 exploration 的主要方法:
    • 罚函数(给非常大的负 reward);
    • 基于一些先验知识 强行限制(如强行改不安全的 action)。

对于效率动机的 exploration,这是 lilian weng 博客(第二个参考资料)的目录:

我们的重点放在 1 prediction-based,2 memory-based。其他感觉都不是主流方法。

2.1 经典 exploration 方法

  • ε-greedy:随机探索的概率是 ε。
  • Upper Confidence Bound:最大化 \(\hat Q(a)+\hat U(a)\),其中 U 与 action 次数成反比。
  • Boltzmann exploration,Thompson sampling:
    • bing:玻尔兹曼探索是不确定性下 sequential decision 的经典策略,是强化学习(RL)中最标准的工具之一。它从玻尔兹曼分布 (softmax) 中获取的 Q value 上的 action,由温度参数 τ 调节.

      汤普森采样以威廉·R·汤普森(William R. Thompson)的名字命名,是一种启发式方法,用于选择解决 multi-armed bandit problem 中 exploration-exploitation 困境的 action。它包括选择最大化随机抽取信念(randomly drawn belief)的预期 reward 的 action.

  • 添加一个 entropy loss \(H(\pi(a|s))\),鼓励 action diversity。
  • noise-based exploration:在 obs action 甚至 parameter space 里面掺 noise。
  • count-based exploration:用密度模型(或者某些哈希)来近似 state 访问的频率,然后用 \(1/\sqrt{N(s,a)}\) 之类作为 intrinsic reward,N 越小,reward 越大。

2.2 prediction-based method:

学习 env 的 dynamics

  • Intelligent Adaptive Curiosity(IAC):
  • Intrinsic Curiosity Module(ICM):
  • Variational information maximizing exploration(VIME):

不学 env dynamics 了

  • Directed Outreaching Reinforcement Action-Selection(DORA):
    • https://zhuanlan.zhihu.com/p/78709539
  • Random Network Distillation(RND):
    • https://blog.csdn.net/qq_43703185/article/details/122718999
  • Never Give Up(NGU):
    • https://zhuanlan.zhihu.com/p/551992517
    • agent57

2.3 memory-based method

  • Episodic Curiosity:
  • Go-Explore:
  • policy-based Go-Explore
  • DTSIL(Diverse Trajectory-conditioned Self-Imitation Learning)

2.4 其他

  • Q exploration,Q 值近似,Bootstrapped DQN:
    • https://www.cnblogs.com/initial-h/p/16350230.html
    • https://zhuanlan.zhihu.com/p/192484077
  • Variational Options
    • Variational Intrinsic Control:训一堆能在不同 state 下终止的 policy,然后看哪个最好??
    • Variational Auto-encoding Learning of Options by Reinforcement(VALOR):没看。

关键词:

(责任编辑:黄俊飞)

推荐内容

Back to Top