회사에서 진행했던 프로젝트: robi V 학습용 데이터 파이프라인 구축 및 관리
📝 프로젝트 개요
2023년부터 2025년 8월까지 OCR 솔루션인 robi V의 데이터 기획부터 수집·정제·검수·전달까지 전 과정을 담당하며, 모델 성능과 직접 연결되는 데이터 품질 관리를 주요 책임으로 수행했습니다.
또한, 오류 케이스 분석을 통한 신규 데이터 추가 및 데이터 품질 개선을 통해 데이터 품질을 지속적으로 개선하였습니다.
2023년 초부터 퇴사 전까지 담당하며 파이프라인 및 데이터를 지속적으로 개선하였습니다.
📍 주요 업무
- python과 머신러닝, 비동기 처리를 사용한 대용량 데이터 처리 자동화
- 모델 오탐지 분석을 통한 취약 케이스 데이터 보강 및 품질 개선
📊 작업
- 사내 ML 모델을 활용한 데이터 분류 파이프라인 자동화
- jSON 정합성 검사, 좌표 오류 탐지 등의 작업을 Python + 비동기 처리를 활용하여 라벨링 데이터 검수 및 수정 자동화
- ML 기반 자동 마스킹 툴 개발
- OCR 엔진을 사용한 GT 자동 생성 스크립트 작성
- 모델 오탐지 분석을 통한 취약 케이스 데이터 보강 및 품질 개선
✅ 성과
- 분류 파이프라인 자동화: 수작업에서 자동화. ML 모델을 사용한 신분증 자동 분류 및 검수를 통해 반복 수작업 비율 90% 이상 감소
- 라벨링 데이터 검수 및 수정 자동화: 수작업에서 자동화. JSON 정합성 검사, 좌표 오류 탐지 스크립트 등을 고도화하여 데이터 오류율을 기존 약 5%에서 0.5% 미만으로 감소
- ML 기반 자동 마스킹 툴 개발: 수작업에서 자동화. 외부 라벨링 인력 및 영업용 데이터 제공을 위해 개인정보를 포함한 이미지의 특정 영역을 자동으로 마스킹하도록 구현
- OCR 엔진을 사용한 GT 자동 생성 스크립트 작성: 수작업에서 자동화. 라벨링하기 어려운 베트남어 등을 OCR 엔진을 사용하여 자동으로 GT를 생성하도록 구현
- 모델 오탐지 분석을 통한 취약 케이스 데이터 보강 및 품질 개선: 신분증 인식 정확도 개선
📂 참고 자료
📗 개인 자료(정리중)
++ 블로그에 추가중입니다.