Gradient Norm

1. 개요

학습 시, 각 parameter에 대한 loss의 기울기(gradient)가 계산됨

모델 전체 parameter의 gradient를 하나의 벡터처럼 생각했을 때…

\(\rightarrow\) 그 벡터의 크기(norm)를 gradient norm이라고 함!

(주로 L2 norm 사용)

gradient norm

= “현재 학습 단계에서 model parameter가 얼마나 크게 update 될지”를 보여주는 지표

(Optimizer가 step을 진행할 때)

\(\Delta \theta \approx - \eta \, g\).

\(\rightarrow\) 즉, \(\mid \mid g\mid \mid\) 이 크면 parameter가 크게 바뀌고, 작으면 거의 안 바뀜

현상: gradient explosion

해결

gradient clipping
- e.g., \(\mid \mid g\mid \mid _2 > \tau\)이면 \(\tau\)로 clipping
learning rate 줄이기
안정적 초기화/정규화(RMSNorm, LayerNorm 등)

현상: gradient vanishing

해결

당연히 절대적인 “좋은 값”은 없음

중요한 건 추세와 안정성입니다:

gradient norm = 전체 기울기의 크기 (update 세기 지표)

적당한 값은 절대적 기준보다 안정적 범위 유지가 중요