( 참고 : Fastcampus 강의 )

[ 39.(paper 4) DDQN,TD3 for Maximization Bias ]

1. Introduction

( Maximization Bias를 해결하기 위한 다음의 방법들을 알아볼 것임 )

[1] Maximization Bias in “Q-Learning”을 해결하기 위해…

Double Q-Learning
Deep Double Q-Learning (DDQN)

[2] Maximization Bias in “Actor-Critic”을 해결하기 위해…

Addressing Function Approximation Error in Actor-Critic Methods (TD3)

2. Maximization Bias란?

https://seunghan96.github.io/rl/36.(paper2)DQN%EA%B0%9C%EC%84%A0/ 참고하기

3. (Q-Learning) DDQN

DDQN (Deep Double Q-Learning) = Double Q-Learning + DQN

Q-Learning에서 maximization bias가 발생하는 이유?

1) MDP의 stochasticity ( 위의 2.블로그 참조 )
2) Insufficiently flexible function approximation

The main contribution of Van Hasselt et al. was to show that the overestimation can happen in cases like Atari 2600 with ANNs as well, where function approximators are flexible (Universal Approximation Theorem) and stochasticity is very less (almost deterministic moves and outcomes).

(a) DQN

Q-network : \(Q_{\theta}(s, a)\)
Target Q-Network : \(Q_{\theta^{-}}(s, a)\)

(b)Double Q-Learning

서로 다른 두 개의 Q-estimator를 가짐

(a) + (b) DDQN :

key idea : “Target Network를 \(\max _{a \prime} Q\left(s^{\prime}, a^{\prime}\right)\) 계산위해 사용”
Q-learning target : \(y=r+\gamma \max _{a \prime} Q_{\theta^{-}}\left(s^{\prime}, a^{\prime}\right)\).

Result ( Maximization Bias 줄어든 효과 검증 )

4. (Actor Critic) TD3

TD3 = DDPG + \(\alpha\)

Summary

1) (구) Double Q-Learning > (신) DDQN ( = Double Q-Learning + DQN )
2) SARSA style
3) # of Critic 업데이트 » # of Actor 업데이트
- Policy Evaluation x 여러번
- Policy Improvement x 1번

Problems of Actor-Critic method

( Actor Critic : 서로 다른 두 개의 NN이 interact하면서 학습됨. GAN의 학습이 어려운 이유도 마찬가지 )

Critic이 얼마나 잘 추산하느냐에 따라 Actor도 영향을 받게 됨.

문제 1) Over-estimation bias
문제 2) High variance of value-function estimation

\(\rightarrow\) TD3는 위 두 문제를 해결한다

(1) 문제 1 : Over-estimation bias

Problem

Q-Learning에 비해, Actor-Critic에서는 이 문제가 덜 알려져 있다

Solution

(A) (기존) DDQN (Double DQN)

Target Network \(\approx\) Main Network
둘이 너무 비슷해서, Double Q-estimator를 사용하는 효과 \(\downarrow\)

(B) (제안) CDQ (Clipped Double Q-Learning)

완전히 분리되어 있는 2개의 Network

\(\begin{aligned} &y_{1}=r+\gamma \min _{i=1,2} Q_{\theta_{i}^{\prime}}\left(s^{\prime}, \pi_{\phi_{1}}\left(s^{\prime}\right)\right) \\ &y_{2}=r+\gamma \min _{i=1,2} Q_{\theta_{i}^{\prime}}\left(s^{\prime}, \pi_{\phi_{2}}\left(s^{\prime}\right)\right) \end{aligned}\) + DDPG 업데이트

Train해야할 network가 총 4개

( 실제로는 3개의 network ( \(\pi\) 는 1개만 골라서 ) 학습한다 )

(2) 문제 2 : High variance of value-function estimation

Function Approximation에서 분산이 높아질 수 밖에 없는 이유?

\(\rightarrow\) Accumulating Error

Solution

target Network 사용 시, update 주기 \(\uparrow\)
soft-update 시, \(\tau\) 를 더 줄여!

Experiment

\(\tau\) 낮추니, 분산이 줄어듬! ( 수렴 속도는 약간 느려지지만 )
대신 더 많은 update수가 필요함

Target Policy Smoothing Regularization

\(y_{i}=r+\min _{i=1,2} \mathbb{E}_{\epsilon}\left[Q_{\theta_{i}^{\prime}}\left(s^{\prime}, \pi_{\phi}\left(s^{\prime}\right)+\epsilon\right)\right]\).

\(\epsilon:\)noise ( ex. Gaussian noise )
같은 \(s\) 에서 ,비슷한 \(a\) 끼리 비슷한 \(Q(s, a)\) 를 가지게 유도

\(\mathbb{E}_{\epsilon}\left[Q_{\theta_{i}^{\prime}}\left(s^{\prime}, \pi_{\phi}\left(s^{\prime}\right)+\epsilon\right)\right]\) 계산 방법

One-sample MC
저자 방식 ) \(y_{i}=r+\min _{i=1,2} Q_{\theta_{i}^{\prime}}\left(s^{\prime}, \pi_{\phi}\left(s^{\prime}\right)+\epsilon\right), \epsilon \sim \operatorname{clip}(\mathcal{N}(0, \sigma),-c, c)\)

(3) TD3 요약

위의 모든 techinque/algorithm들을 합친다

Key point

1) 2개의 독립된 Q function을 계산하는 NN을 만듬

( + 각각에 해당하는 Target Network도 ) ( + Actor Network는 1개만 사용 )
[Replay Buffer]

2) Action에 exploration noise ( with Gaussian )

( \(\leftrightarrow\) DDPG : OU process )
[Training 시]

3) Target Smoothing Noise

( Gaussian noise + clipping 해서 더함 )

\(y_{i}=r+\min _{i=1,2} Q_{\theta_{i}^{\prime}}\left(s^{\prime}, \pi_{\phi}\left(s^{\prime}\right)+\epsilon\right), \epsilon \sim \operatorname{clip}(\mathcal{N}(0, \sigma),-c, c)\).
4) Soft-update

Twitter Facebook LinkedIn

39.(paper 4) DDQN,TD3 for Maximization Bias

Seunghan Lee

[ 39.(paper 4) DDQN,TD3 for Maximization Bias ]

1. Introduction

2. Maximization Bias란?

3. (Q-Learning) DDQN

(a) DQN

(b)Double Q-Learning

(a) + (b) DDQN :

Result ( Maximization Bias 줄어든 효과 검증 )

4. (Actor Critic) TD3

(1) 문제 1 : Over-estimation bias

Problem

Solution

(2) 문제 2 : High variance of value-function estimation

Solution

Experiment

Target Policy Smoothing Regularization

(3) TD3 요약

You May Also Enjoy