ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [OCR] 데이터 제작의 중요성
    CS 공부/AI 2023. 5. 23. 18:13

    Software 1.0

    1. 문제 정의: 비디오를 품질 저하 없이 적은 용량으로 저장할 수 없을까? (비디오 코덱)
    2. 큰 문제를 작은 문제들의 집합으로 분해
    3. 개별 문제 별로 알고리즘 설계
    4. 솔루션들을 합쳐 하나의 시스템으로

    이미지 인식 기술도 처음에는 Software 1.0 철학으로 개발되었으나 객체 검출에서 대응하기 어려운 케이스가 정말 많았다.

     

    이에 대한 해결책으로 결국 Software 2.0 등장

     

    Software 2.0

    Software 1.0은 어떤 연산을 할 지 사람이 고민하여 정하는 것

     

    1. Software 2.0은 뉴럴넷의 구조에 의해 검색 영역을 한정
    2. 최적화를 통해 사람이 정한 목적에 제일 부합하는 연산의 집합을 찾음
    3. 이때 경로와 목적지는 데이터와 최적화 방법에 의해서 정해짐

     

    AI 모델의 성능 = (모델구조 + 최적화  방법) + 데이터 = 코드 + 데이터

     

    전체 기반: Software 1.0 + 특정 모듈만 Software 2.0으로 변경

     

    AI Project의 생애주기

    1. Project Setup (모델의 요구사항 확정)
      • 처리시간
      • 목표 정확도
      • 목표 qps
      • Serving 방식
      • 장비 사양
    2. Data Preparation (데이터셋 준비)
      • 종류
      • 수량
      • 정답(label)
    3. Model Training (모델 학습 및 디버깅)
      • 데이터 관련 피드백
      • 요구사항 달성
    4. Deploying (설치 및 유지보수)
      • 성능 모니터링
      • 이슈 해결

     

    Data

    모델 성능 = Data-Centric(데이터만 수정하여 모델 성능 끌어올리기) + Model-Centric(데이터는 고정시키고 모델 성능 끌어올리기)

    더보기

    모델 성능 달성을 위해서는 Data-centric 50% + Model-centric 50%
    모델 성능 개선을 위해서는 Data-centric 80% + Model-centric 20%

     

    데이터를 다루기 힘든 이유

    1. 좋은 데이터를 많이 모으기 힘들다
    2. 라벨링 비용이 크다
    3. 작업 기간이 오래 걸린다
    • 라벨링 결과에 대한 노이즈 = 라벨링 작업에 대해 일관되지 않은 정도
    • 잘못 작업된 라벨링 결과를 학습 시 무시하게 하려면 적어도 깨끗한 라벨링 결과가 2배 이상 필요
    • 적은 데이터도 골고루 있어야함 (너무 편향되면 안됨)
    • 특이 경우를 발견하고 해당 샘플들을 모으며, 이를 포함한 라벨링 가이드를 만들어야 한다

       => 라벨링 노이즈를 상쇄할 정도로 깨끗하고 골고루 일정하게 라벨링된 데이터가 많아야 함

       => 작업을 효율화 하려면 해당 태스크에 대한 경험치가 잘 쌓여야함

       => 하지만 완벽하게 모든 경우를 고려한 라벨링 가이드를 만드는 것은 불가능하므로 반복적이고 자동화된 작업으로 만들어야함 

     

     

    'CS 공부 > AI' 카테고리의 다른 글

    [OCR] Text Detection  (0) 2023.05.24
    OCR  (0) 2023.05.23
    [Object Detection] Validation 전략 & Ensemble  (0) 2023.05.07
    [Object Detection] YOLOv4, M2Det, CornerNet  (0) 2023.05.07
    [Object Detection] Cascade RCNN, DCN, Transformer  (1) 2023.05.06
Designed by Tistory.