회사에서 진행했던 프로젝트: Fake Detection
📝 프로젝트 개요
사본 판별 솔루션인 Fake Detection에 필요한 데이터 기획부터 수집·정제·검수·전달까지 전 과정을 담당하며, 모델 성능과 직접 연결되는 데이터 품질 관리를 주요 책임으로 수행했습니다.
나아가, 라벨링 인력 관리 및 라벨링 검수 및 수정, 팀내 문서 검색용 VS Code Extension 개발 등 기타 협업 작업을 진행하였습니다.
2022년부터 퇴사 전까지 담당하며 파이프라인 및 데이터를 지속적으로 개선하였습니다.
📍 주요 업무
- Fake Detection 학습용 데이터셋 구축 및 관리
- python을 사용한 대용량 데이터 처리 자동화
- 모델 오류 케이스 및 취약점 분석을 통한 데이터 품질 관리
- Tool 및 라이브러리,스크립트 구현
- 라벨링 가이드 작성 및 작업물 검수
📊 작업
- 해시 알고리즘을 활용한 데이터 중복 제거 최적화
- python openCV를 활용한 합성 데이터 자동 생성
- 사내 setup 스크립트를 라이브러리로 변환 및 스크립트 개선. 라이브러리 활용을 위해 팀 내 마크다운 문서 검색을 지원하는 VS Code Extension을 직접 개발/배포
- 모델 오류 케이스 및 취약점 분석을 통한 데이터 보강 및 품질 개선
- Fake Detection 모델 개발 팀과 합의 후 라벨링 가이드 작성, 라벨링 인력 관리 및 검수&수정
✅ 성과
- 데이터 중복 제거 최적화: 수작업에서 자동화. 처리 속도를 약 90% 단축 및 스토리지 효율 약 15% 개선
- 합성 데이터 자동 생성: Pre-training에 활용 가능한 학습 데이터를 선제적으로 확보
- 사내 라이브러리 및 마크다운 문서 검색을 지원하는 VS Code Extension 개발 : 팀 개발 생산성 향상 및 효율화
- 라벨링 가이드 작성 및 작업물 검수/수정. 라벨링 인력 관리: Fake Detection 성능 및 인식률 개선