ACTADD (Activation Addition) (ICLR 2025 submission)
논문: STEERING LANGUAGE MODELS WITH ACTIVATION ENGINEERING
1. 아이디어
- Contrast prompt를 활용해서 shift vector를 만드는 방법.
- 예:
- 긍정적인 프롬프트(“The answer is helpful, polite, …”)
- 부정적인 프롬프트(“The answer is toxic, rude, …”)
- 두 프롬프트를 모델에 입력했을 때의 activation 차이를 계산
→ 이것이 곧 “원하는 방향 - 회피할 방향”을 나타내는 벡터.
2. 과정
- Contrast pair 준비: \((prompt^+, prompt^-)\)
- 해당 프롬프트를 LM에 넣고 특정 레이어에서의 hidden activation 추출
- 차이(Δactivation) = shift vector로 정의
- Inference 시, 모델의 activation에 이 shift vector를 더해주면, 모델 출력이 원하는 방향으로 이동
3. 특징
- 학습 불필요: optimization 없이 activation level에서 직접 제어
- 단순하지만 강력: 특정 속성(예: toxic→non-toxic) 제어 가능
4. 한계
- 단일 contrast prompt pair로만 작동 → 데이터 다양성이 부족
- 따라서 일반화 성능 제한 (프롬프트 상황이 바뀌면 효과 떨어짐)