Semantic segmantation 모델: FCN, U-Net, DeepLab

CS 공부/AI 2023. 3. 30. 04:24

Semantic Segmentation 모델을 위해 기존 image classification에서 우수한 성능을 보인 CNN 기반 모델(AlexNet, VGG16, GoogLeNet)을 변형시킨 구조

Convolution Layer를 통해 Feature 추출
1x1 Convolution Layer를 이용해 피처맵의 채널 수를 데이터셋 class 개수와 같게함
(Class Presence Heat Map 추출)
Up-sampling: 낮은 해상도의 Heat Map을 Upsampling한 뒤, 입력 이미지와 같은 크기의 Map 생성
최종 피처 맵과 라벨 피처맵의 차이를 이용하여 네트워크 학습

Semantic segmentation을 하기 위해 네트워크 뒷단에 fully connected layer 대신 fully convolutional layer을 붙여준다

fully connected layer: 고정된 차원의 벡터를 출력하고 공간 좌표를 삭제
fully convolutional layer(1x1 convolutions) : 공간 좌표가 있는 분류 map을 출력
- fully connected layer는 input의 크기가 고정되어있어, 모델에 들어가는 input size를 통일시켜줘야하고, 따라서 위치정보를 잃어버린다
- 1x1 conv layer는 상관없기 때문에 어떤 사이즈의 input도 가능하고, class의 score와 위치정보를 담고있는 heatmap을 얻을 수 있다
  - 단점: score map의 해상도가 낮다... -> upsampling 방법을 사용하여 score map을 크게 만들었다!

hypercolumns for object segmentation이라는 논문이 이와 동시에 나왔으나,,, FCN에게 패배했다는,,,한번 보면 좋을듯?

영상의 일부분을 자세히 봐야할 때 자주 사용
fully convolutional networks (FCN보다 좀 더 정교함)
구조1 (contracting path)
- Receptive field를 크게 확보하기 위해 해상도를 낮추고 채널 수를 늘림 (64->128)
- 3x3 convolution

구조2 (expanding path)
- 해상도를 두 배 늘리고, 채널수는 반으로 줄임
- 2x2 convolution
- 두 개의 맵을 서로 합쳐서(concatenation) 저차원 이미지 정보뿐만 아니라 고차원 정보도 이용 가능

7x7을 downsampling하면 버림되서 3x3이 되는데 이것을 다시 upsampling 하면 6x6이 되서 해상도 차이가 생김
- 따라서 feature map의 사이즈가 홀수가 되게 하면 안됨!!!

Deeplab v1

부정확한 localization문제를 DCNNs의 마지막 레이어에서의 responses와 fully connected Conditional Random Field(CRF)를 결합하여 해결함
CRFs로 후처리를 하는데, CRF를 반복할수록 정확도가 좋아진다

Deeplab v2

Deeplab v3

Deeplab v3+

CNN Visualization (결과 분석 기법) (0)	2023.04.03
📌 Two-stage detector(R-CNN)과 Single-stage detector(YOLO,SSD) (0)	2023.03.31
GoogleNet, ResNet (0)	2023.03.28
Annotation data efficient learning (0)	2023.03.28
AlexNet과 VGGNet (feat. CNN) (0)	2023.03.28

Carpe Diem Carpe Diem