Carpe Diem

[OCR] Text Detection

CS 공부/AI 2023. 5. 24. 02:15

일반 객체 영역 검출 vs 글자 영역 검출 일반 객체 검출: 클래스와 위치를 예측하는 문제 글자 검출: 객체의 위치만 예측하는 문제 (클래스 예측 안함) 객체의 특징 매우 높은 밀도 극단적 종횡비 특이 모양 (구겨진, 휘어진 영역) 모호한 객체 영역 글자 영역 표현법 직사각형 (RECT) 직사각형 + 각도 (Rotated Box) 사각형 (QUAD) 다각형 (Polygon) Arbitrary-shaped(임의의 모양) text를 주로 다루는 최근의 벤치마크들에 적합 일반적으로 2N points 이용하고, 상하 점들이 쌍을 이루도록 배치 Taxonomy Regression-based vs Segmentation-based Regression-based: 이미지를 입력 받아 글자 영역 표현값들을 바로 출력으..

OCR

CS 공부/AI 2023. 5. 23. 23:31

OCR - Optical Character Recognition STR - Scene Text Recognition Offline Handwriting vs Online Handwriting offline handwriting: 이미지 입력, 글자값 출력 online handwriting: 좌표 시퀀스 입력, 글자값 출력 Object Detection & Text Detection 글자 영역 다수 객체 검출: 글자 영역이냐 아니냐, 단일 클래스 문제 (클래스 정보 필요없고 객체의 위치만 추정) Text Detector: 이미지 입력에 글자 영역 위치가 출력 Text Recognizer: 하나의 글자 영역 이미지 입력에 해당 영역 글자열이 출력인 모델 CV와 NLP의 교집합 영역 유사 영역으로 Image ..

[OCR] 데이터 제작의 중요성

CS 공부/AI 2023. 5. 23. 18:13

Software 1.0 문제 정의: 비디오를 품질 저하 없이 적은 용량으로 저장할 수 없을까? (비디오 코덱) 큰 문제를 작은 문제들의 집합으로 분해 개별 문제 별로 알고리즘 설계 솔루션들을 합쳐 하나의 시스템으로 이미지 인식 기술도 처음에는 Software 1.0 철학으로 개발되었으나 객체 검출에서 대응하기 어려운 케이스가 정말 많았다. 이에 대한 해결책으로 결국 Software 2.0 등장 Software 2.0 Software 1.0은 어떤 연산을 할 지 사람이 고민하여 정하는 것 Software 2.0은 뉴럴넷의 구조에 의해 검색 영역을 한정 최적화를 통해 사람이 정한 목적에 제일 부합하는 연산의 집합을 찾음 이때 경로와 목적지는 데이터와 최적화 방법에 의해서 정해짐 AI 모델의 성능 = (모델구..

[Object Detection] Validation 전략 & Ensemble

CS 공부/AI 2023. 5. 7. 21:55

💡 mAP가 높으면 항상 좋을까? 항상 그렇지는 않다. Threshold를 낮출 경우 오히려 mAP는 증가 최적의 threshold 찾아야함 추후 모델을 앙상블할 때도 이러한 문제가 발생 가능 적용하는 분야의 특징에 따라 threshold나 평가 metric을 설정하는 것이 좋음 Validation 전략 Random split: 전체 데이터를 랜덤하게 train / valid로 분리 K-fold: 전체 데이터를 K 비율로 train / valid로 분리, split 수만큼의 독립적인 모델을 학습하고 검증 Stratified K-fold: 데이터 분포를 고려하지 않는 K fold 방식과 달리 fold마다 유사한 데이터 분포를 갖도록 하는 방법, 데이터 불균형에 좋음 Group k-fold: group 기준..

[Object Detection] YOLOv4, M2Det, CornerNet

CS 공부/AI 2023. 5. 7. 19:30

YOLOv4 등장배경 object detection에서 사용하는 최신 방법들을 소개 및 실험 최신 detection에서 정확도는 크게 향상시켰지만, 많은 양의 GPU 필요 실시간 task에는 부적합함 (ex. 자율주행) 다른 detector보다 빠르면서 정확도가 높은 YOLOv4 등장 Contribution 하나의 GPU에서 훈련할 수 있는 빠르고 정확한 object detector BOF, BOS 방법들을 실험을 통해서 증명하고 조합을 찾음 BOF: inference 비용을 늘리지 않고 정확도 향상시키는 방법 BOS: inference 비용 조금 높이지만 정확도가 크게 향상하는 방법 GPU 학습에 더 효율적이고 적합하도록 방법들을 변형 Bag of Freebies (BOF) Data Augmentati..

[Object Detection] Cascade RCNN, DCN, Transformer

CS 공부/AI 2023. 5. 6. 19:45

Cascade RCNN IoU threshold에 따라 다르게 학습되었을 때 결과가 다름 Input IoU가 높을수록 높은 IoU threshold에서 학습된 모델이 더 좋은 결과를 냄 IoU threshold에 따라 다르게 학습되었을 때 결과가 다름 전반적인 AP의 경우 IoU 0.5로 학습된 모델 성능이 가장 좋음 그러나 AP의 IoU threshold가 높아질수록 IoU threshold가 0.6, 0.7로 학습된 모델 성능이 좋음 high quality detection을 수행하기 위해선 IoU threshold를 높여 학습할 필요가 있음 하지만 성능이 하락하는 문제가 존재하기 때문에 이를 해결하기 위해 Cascade RCNN 제안 Method Faster RCNN과 다르게 IoU threshol..

[Object Detection] EfficientDet

CS 공부/AI 2023. 5. 6. 16:47

Model Scaling Compound scaling = width + depth + resolution scaling Width Scaling ex. WRN Depth Scaling ex. ResNet34 더 높은 정확도와 효율성을 가지면서 ConvNet의 크기를 키우는 방법은 없을까? 네트워크의 width, depth, resolution 모든 차원에서의 균형을 맞추는 것이 중요! EfficientNet 등장 배경 모델들의 파라미터 수가 점점 많아짐 점점 빠르고 작은 모델에 대한 요구 증가 효율성과 정확도의 trade-off를 통해 모델 사이즈를 줄이는 것이 일반적이지만, 큰 모델에서는 어떻게 모델을 압축시킬지가 불분명함 따라서 EfficientNet은 아주 큰 SOTA ConvNet의 effici..

[Object Detection] 1 stage Detectors

CS 공부/AI 2023. 5. 4. 13:59

1 stage Detectors 2 stage Detectors의 단점 종류: RCNN, FastRCNN, SPPNet, FasterRCNN 속도가 매우 느림 실시간에서 응용 불가능 1 stage Detectors 종류: YOLO, SSD, RetinaNet RPN 과정이 사라짐 Localization, Classification 동시에 진행 전체 이미지에 대해 특징 추출, 객체 검출이 이루어짐 -> simple & easy 속도 매우 빠름 영역을 보지 않고 전체 이미지를 보기 때문에 객체에 대한 맥락적 이해가 높음 YOLOv1 YOLOv1: 하나의 이미지의 bbox와 classification 동시에 예측하는 1 stage detector 특징 Region proposal 단계가 없다 전체 이미지에서 ..

ABOUT ME

Carpe Diem Carpe Diem

티스토리툴바

ABOUT ME

전체 글

티스토리툴바