One-class SVM
(1) 핵심 아이디어 요약
- (1) Unsupervised AD 모델 (정상 데이터만을 이용해 학습)
- (2) Procedure
- Step 1) 데이터를 고차원 feature space로 매핑
- Step 2) 그 공간에서 원점으로부터 최대한 떨어진 초평면(hyperplane)을 찾음
- Step 3) 초평면 내부에 있으면 정상, 외부에 있으면 이상(anomaly)
(2) 최적화
\[\min _{w, \rho_1(\xi)} \frac{1}{2} \mid \mid w \mid \mid ^2+\frac{1}{\nu n} \sum_{i=1}^n \xi_i-\rho\]- subject to \(w \cdot \phi\left(x_i\right) \geq \rho-\xi_i, \quad \xi_i \geq 0, \quad i=1, \ldots, n\)
Notation
- \(x_i\): 입력 샘플
- \(\phi(x)\): 커널을 통해 사상된 고차원 feature
- \(w\): 초평면의 법선 벡터
- \(\rho\): 경계 마진
- \(\xi_i\): 슬랙 변수 (허용 오차)
- \(\nu\): 하이퍼파라미터, anomaly 허용 비율 (0~1 사이)
(3) 해석
- 원점에서부터의 거리가 \(\rho\) 이상인 feature vector \(\phi(x)\)들이 정상
- 그렇지 못한 점들은 슬랙 변수 \(\xi_i\)를 통해 이상으로 분류
(4) RBF (Radial Basis Function) 커널
\(K\left(x, x^{\prime}\right)=\exp \left(-\frac{ \mid \mid x-x^{\prime} \mid \mid ^2}{2 \sigma^2}\right)\).
(5) Inference
테스트 데이터 \(x\)에 대해 결정 함수 \(f(x)\)를 다음처럼 정의
\(f(x)=\operatorname{sign}(w \cdot \phi(x)-\rho)\).
- \(f(x) \geq 0\): 정상
- \(f(x) < 0\): 이상
(6) 장점 & 단점
장점 | 단점 |
---|---|
정상 데이터만으로 학습 가능 | 고차원에서는 성능 저하 가능 |
비선형 경계 지원 (커널) | 하이퍼파라미터 조정 필요 (\(\nu\), \(\sigma\) 등) |
수학적 직관 명확 | 대규모 데이터에선 느림 |
SVDD (Support Vector Data Description)
(1) 핵심 아이디어
-
마찬가지로, SVM 기반의 unsupervised AD 방법론 (정상 데이터만 가지고 학습)
- 데이터를 감싸는 최소 구를 찾는 이상 탐지 방법
- feature space 상에서 모든 정상 데이터를 감싸는 최소 반지름의 hypersphere를 찾는다
- 테스트 샘플이 구 내부에 있으면 “정상”, 외부에 있으면 “이상”
(2) SVDD vs One-Class SVM
항목 | SVDD | One-Class SVM |
---|---|---|
목적 | 최소 구로 데이터 감싸기 | 원점 기준으로 분리 초평면 찾기 |
직관 | 구 안이면 정상 | 초평면 위면 정상 |
수식 구조 | 중심-반지름 기반 | 초평면 margin 기반 |
성능 | 유사 (일반적으로) | 유사 |