【环球快播报】RL 的探索策略 | Exploration for RL

(资料图)

最近在草率地调研 RL 的 exploration。这篇文章也比较草率，仅能起到辅助作用，不能代替读 review 或更精细的读 paper。

1 主要参考资料

https://www.sciencedirect.com/science/article/pii/S1566253522000288
- 一篇 review，感觉不太好读。
https://lilianweng.github.io/posts/2020-06-07-exploration-drl/
- 很好的博客，主要参考它。
https://journals.sagepub.com/doi/10.1177/1729881418775849
- 18 年的 review，关于 memory-based exploration，还没读。
一些可爱的 new bing。

在 review（第一个参考资料）中，exploration 的研究有两种动机：效率动机与安全动机。前者希望 exploration 能帮助 RL 尽快学会，而后者希望 RL 试错学习的过程中保证安全性。

对于效率动机的 exploration，这是 lilian weng 博客（第二个参考资料）的目录：

我们的重点放在 1 prediction-based，2 memory-based。其他感觉都不是主流方法。

ε-greedy：随机探索的概率是 ε。
Upper Confidence Bound：最大化 \(\hat Q(a)+\hat U(a)\)，其中 U 与 action 次数成反比。
Boltzmann exploration，Thompson sampling：
- bing：玻尔兹曼探索是不确定性下 sequential decision 的经典策略，是强化学习（RL）中最标准的工具之一。它从玻尔兹曼分布（softmax）中获取的 Q value 上的 action，由温度参数 τ 调节.
  汤普森采样以威廉·R·汤普森（William R. Thompson）的名字命名，是一种启发式方法，用于选择解决 multi-armed bandit problem 中 exploration-exploitation 困境的 action。它包括选择最大化随机抽取信念（randomly drawn belief）的预期 reward 的 action.
添加一个 entropy loss \(H(\pi(a|s))\)，鼓励 action diversity。
noise-based exploration：在 obs action 甚至 parameter space 里面掺 noise。
count-based exploration：用密度模型（或者某些哈希）来近似 state 访问的频率，然后用 \(1/\sqrt{N(s,a)}\) 之类作为 intrinsic reward，N 越小，reward 越大。

Directed Outreaching Reinforcement Action-Selection（DORA）：
- https://zhuanlan.zhihu.com/p/78709539
Random Network Distillation（RND）：
- https://blog.csdn.net/qq_43703185/article/details/122718999
Never Give Up（NGU）：
- https://zhuanlan.zhihu.com/p/551992517
- agent57

Q exploration，Q 值近似，Bootstrapped DQN：
- https://www.cnblogs.com/initial-h/p/16350230.html
- https://zhuanlan.zhihu.com/p/192484077
Variational Options
- Variational Intrinsic Control：训一堆能在不同 state 下终止的 policy，然后看哪个最好？？
- Variational Auto-encoding Learning of Options by Reinforcement（VALOR）：没看。

关键词：

(责任编辑：黄俊飞)