( 참고 : Fastcampus 강의 )

[ U-net (2015) ]


1. Architecture

figure2

U-net의 이름은 아키텍쳐의 형태가 U자인데에서 온다.


아키텍쳐의 Key point 2가지

  • contracting path : context 파악

    ( 이미지를 down sampling 하는 과정 )

  • expanding path : localization 파악

    ( 이미지를 up sampling 하는 과정 )


2. Overlap-tile

이미지를 여러개의 겹치지 않는 Patch들로 나눈다.

figure2


각각의 Patch에 패딩을 하는데,

이 때 사용하는 패딩을 “Mirroring Padding”이라 한다.

  • 이름 그대로, 대칭이 되게 mirroring하여 패딩한다. ( 아래 그림 참고 )

  • 이때 모서리 부분의 패딩들은 서로 겹치게 된다 (=Overlap-tile)

figure2


3. contracting & Expanding Path

figure2

(1) contracting Path

( down sampling 과정 )

  • 3x3 convolution & ReLU
  • 2x2 max pooling ( stride = 2)
  • down sampling할 때마다 channel을 2배씩 늘림


(2) Expanding Path

( contracting Path의 반대 )

  • 2x2 convolution

  • up sampling할 때마다 channel을 2배씩 줄임

  • contracting path의 feature를 copy&crop한 뒤,

    expanding path에 concatenate한다


4. Weighted Cross Entropy

의료 영상에서 주로 사용되기 때문에, 비슷한 애들 간의 경계를 구분하는게 중요했었음. 이를 위해, weighted cross entropy를 사용.

( 인접한 픽셀을 더욱 잘 인식하기 위해 )

\(E=\sum_{\mathbf{x} \in \Omega} w(\mathbf{x}) \log \left(p_{\ell(\mathbf{x})}(\mathbf{x})\right)\).

  • \(p_{k}(\mathbf{x})=\exp \left(a_{k}(\mathbf{x})\right) /\left(\sum_{k^{\prime}=1}^{K} \exp \left(a_{k^{\prime}}(\mathbf{x})\right)\right)\).
  • \(w(\mathbf{x})=w_{c}(\mathbf{x})+w_{0} \cdot \exp \left(-\frac{\left(d_{1}(\mathbf{x})+d_{2}(\mathbf{x})\right)^{2}}{2 \sigma^{2}}\right)\).
    • 어떤 픽셀이, 주변 픽셀이랑 비교를 했을 때,

      가장 가까운 거리까지의 거리가 \(d_1\), 그 다음이 \(d_2\)

    • \(d_1\)과 \(d_2\)가 작을수록 (인접할수록), weight는 커짐


5. Data Augmentation

figure2

(1) Affine Transform

3x3 elastic transformation matrix를 사용하여, 여러 사진 추가 생성

(2) Elastic Distortion

이미지의 핵심은 손상하지 않은채로 왜곡을 부여