( 참고 : Fastcampus 강의 )
[ U-net (2015) ]
1. Architecture
U-net의 이름은 아키텍쳐의 형태가 U자인데에서 온다.
아키텍쳐의 Key point 2가지
-
contracting path : context 파악
( 이미지를 down sampling 하는 과정 )
-
expanding path : localization 파악
( 이미지를 up sampling 하는 과정 )
2. Overlap-tile
이미지를 여러개의 겹치지 않는 Patch들로 나눈다.
각각의 Patch에 패딩을 하는데,
이 때 사용하는 패딩을 “Mirroring Padding”이라 한다.
-
이름 그대로, 대칭이 되게 mirroring하여 패딩한다. ( 아래 그림 참고 )
-
이때 모서리 부분의 패딩들은 서로 겹치게 된다 (=Overlap-tile)
3. contracting & Expanding Path
(1) contracting Path
( down sampling 과정 )
- 3x3 convolution & ReLU
- 2x2 max pooling ( stride = 2)
- down sampling할 때마다 channel을 2배씩 늘림
(2) Expanding Path
( contracting Path의 반대 )
-
2x2 convolution
-
up sampling할 때마다 channel을 2배씩 줄임
-
contracting path의 feature를 copy&crop한 뒤,
expanding path에 concatenate한다
4. Weighted Cross Entropy
의료 영상에서 주로 사용되기 때문에, 비슷한 애들 간의 경계를 구분하는게 중요했었음. 이를 위해, weighted cross entropy를 사용.
( 인접한 픽셀을 더욱 잘 인식하기 위해 )
\(E=\sum_{\mathbf{x} \in \Omega} w(\mathbf{x}) \log \left(p_{\ell(\mathbf{x})}(\mathbf{x})\right)\).
- \(p_{k}(\mathbf{x})=\exp \left(a_{k}(\mathbf{x})\right) /\left(\sum_{k^{\prime}=1}^{K} \exp \left(a_{k^{\prime}}(\mathbf{x})\right)\right)\).
- \(w(\mathbf{x})=w_{c}(\mathbf{x})+w_{0} \cdot \exp \left(-\frac{\left(d_{1}(\mathbf{x})+d_{2}(\mathbf{x})\right)^{2}}{2 \sigma^{2}}\right)\).
-
어떤 픽셀이, 주변 픽셀이랑 비교를 했을 때,
가장 가까운 거리까지의 거리가 \(d_1\), 그 다음이 \(d_2\)
-
\(d_1\)과 \(d_2\)가 작을수록 (인접할수록), weight는 커짐
-
5. Data Augmentation
(1) Affine Transform
3x3 elastic transformation matrix를 사용하여, 여러 사진 추가 생성
(2) Elastic Distortion
이미지의 핵심은 손상하지 않은채로 왜곡을 부여