회사에서 진행했던 프로젝트: robi V 학습용 데이터 파이프라인 구축 및 관리

📝 프로젝트 개요

2023년부터 2025년 8월까지 OCR 솔루션인 robi V의 데이터 기획부터 수집·정제·검수·전달까지 전 과정을 담당하며, 모델 성능과 직접 연결되는 데이터 품질 관리를 주요 책임으로 수행했습니다.
또한, 오류 케이스 분석을 통한 신규 데이터 추가 및 데이터 품질 개선을 통해 데이터 품질을 지속적으로 개선하였습니다.
2023년 초부터 퇴사 전까지 담당하며 파이프라인 및 데이터를 지속적으로 개선하였습니다.

📍 주요 업무

  • python과 머신러닝, 비동기 처리를 사용한 대용량 데이터 처리 자동화
  • 모델 오탐지 분석을 통한 취약 케이스 데이터 보강 및 품질 개선

📊 작업

  • 사내 ML 모델을 활용한 데이터 분류 파이프라인 자동화
  • jSON 정합성 검사, 좌표 오류 탐지 등의 작업을 Python + 비동기 처리를 활용하여 라벨링 데이터 검수 및 수정 자동화
  • ML 기반 자동 마스킹 툴 개발
  • OCR 엔진을 사용한 GT 자동 생성 스크립트 작성
  • 모델 오탐지 분석을 통한 취약 케이스 데이터 보강 및 품질 개선

✅ 성과

  • 분류 파이프라인 자동화: 수작업에서 자동화. ML 모델을 사용한 신분증 자동 분류 및 검수를 통해 반복 수작업 비율 90% 이상 감소
  • 라벨링 데이터 검수 및 수정 자동화: 수작업에서 자동화. JSON 정합성 검사, 좌표 오류 탐지 스크립트 등을 고도화하여 데이터 오류율을 기존 약 5%에서 0.5% 미만으로 감소
  • ML 기반 자동 마스킹 툴 개발: 수작업에서 자동화. 외부 라벨링 인력 및 영업용 데이터 제공을 위해 개인정보를 포함한 이미지의 특정 영역을 자동으로 마스킹하도록 구현
  • OCR 엔진을 사용한 GT 자동 생성 스크립트 작성: 수작업에서 자동화. 라벨링하기 어려운 베트남어 등을 OCR 엔진을 사용하여 자동으로 GT를 생성하도록 구현
  • 모델 오탐지 분석을 통한 취약 케이스 데이터 보강 및 품질 개선: 신분증 인식 정확도 개선

📂 참고 자료

📗 개인 자료(정리중)

++ 블로그에 추가중입니다.