-
데이터의 중요성
- Supervised Learning
- 데이터 정제: data clensing, annotation, annotation quality check
- 양질의 데이터를 확보하려면?
- People: 가이드 숙지력, 일관된 작업, 작업 효율성, 특이 케이스에 대한 대응력
- Process: 일관된 작업을 보장하기 위한 프로세스 정립, 유연성도 필요
- Tool: 작업 효율성을 올리기 위한 UX / 자동화 / 부가 기능, 커뮤니케이션 효율화를 위한 게시판, 댓글 기능
CV 데이터 제작 오픈 소스
- LabelMe: MIT에서 공개한 이미지 데이터 annotation 도구를 참고하여 만든 오픈소스
- polygon, circle, rectangle, line, point annotation 수행 가능
- 장점
- 설치가 용이하다
- python으로 작성되어있어, 기능 추가 가능
- 단점
- 공동 작업 불가능
- object, image에 속성 부여 불가능
- CVAT (Computer Visino Annotation Tool): Intel에서 제작, 일반적인 cv task에 필요한 annotation 기능 모두 포함
- 주로 object detection, image segmentation, image classification
- 장점
- 다양한 annotation 지원
- automatic annotation 기능으로, 빠른 annotation 가능
- 온라인에서 바로 사용하거나, on-premise로 설치하여 이용 가능
- 공동 작업 가능 (assignee, reviewer 기능)
- 단점
- model inference 굉장히 느림
- object, image에 대한 속성을 부여하기 까다로움
- Hasty Labeling Tool: CVAT과 유사, annotation 도구는 전체 솔루션의 일부
- 데이터 제작 / 모델 학습 / 서빙 / 모니터링까지 쉽게할 수 있는 솔루션 제공
- 장점
- 다양한 annotation 지원
- semi-automatic annotation 기능
- cloud storage 활용 가능 (유료)
- 공동 작업 가능 (assignee, reviewer 기능)
- 단점
- 무료 credit 다 소진하면 유료임
- annotator가 수동으로 이미지마다 review state로 변경해주어야함
- annotation 도구 커스터마이징 불가능
Upstage Annotation Tool
- Annotation 프로세스
- OCR Annotation: OCR 엔진용
- OCR Inspection: OCR 엔진용
- Parsing Annotation: 파싱 엔진용
- Parsing Inspection: 파싱 엔진용
- 사용자 역할
- 작업자: annotation 수행하는 사람
- 검수자: annotator의 작업물이 올바르게 작업되었는지 확인하는 사람. 일반적으로 규칙을 잘 숙지하고 있는 사람에게 해당 권한을 부여
- 관리자: 모든 작업물 내역을 확인 가능 및 저장된 annotation 기반으로 dataset 제작, 전체적인 annotation 관리