대용량 데이터 처리와 ML 모델 서빙 최적화, 그리고 이를 뒷받침하는 데이터 인프라 구축에 강점을 가진 소프트웨어
엔지니어입니다.
OCR 기반 서비스 기업에서 40만 건 이상의 이미지 데이터를 다루며, 데이터 수집·정제·검수·배포까지의 전 과정을 하나의 파이프라인으로 설계·운영했습니다.
단순히 데이터를 처리하는 수준을 넘어, 중복 제거·합성 데이터 생성·자동 GT 생성·데이터 QA 체계화 등의 작업을 통해 모델 학습용 데이터 품질을 구조적으로
끌어올렸습니다.
또한 Django/DRF와 Celery, Meilisearch, Docker를 활용해 사내 데이터 관리 플랫폼을 설계·구현하여, 비개발 인력도 안정적으로 대규모
데이터를 업로드/조회/활용할 수 있는 환경을 구축했습니다.
최근에는 RAG, 벡터 검색, 에이전트 등 LLM을 활용한 데이터 인프라에 관심을 두고, 실제 관련 기술을 활용한 토이프로젝트 진행하며 데이터 엔지니어링과 AI
애플리케이션 영역을 확장하고 있습니다.
Software Engineer specializing in large-scale data processing, ML model serving
optimization, and the underlying data infrastructure.
At an OCR-based service company, I managed over 400,000 image data entries, designing and
operating a unified pipeline that covers the entire process from data collection, cleaning,
and verification to distribution.
Beyond simple data processing, I structurally improved model training data quality through
duplicate removal, synthetic data generation, automated GT creation, and systematized data
QA.
Additionally, I designed and implemented an in-house data management platform using
Django/DRF, Celery, Meilisearch, and Docker, establishing an environment where
non-developers could stably upload, query, and utilize large-scale data.
Recently, I have been focusing on data infrastructure utilizing LLMs—such as RAG, vector
search, and agents—and am expanding my expertise in data engineering and AI applications by
conducting toy projects using these technologies.
💼 경력사항
💼 Experience
Software Engineer (Data Engineering Focus)
Software Engineer (Data Engineering
Focus)
-
엔드투엔드 Vision AI 데이터 파이프라인 책임 운영:
신규 모델 학습에 필요한 데이터 기획부터 수집·정제·검수·전달까지 전 과정을 담당하며,
모델 성능과 직접 연결되는 데이터 품질 관리를 주요 책임으로 수행했습니다.
-
End-to-end ownership of Vision AI data pipeline:
Took responsibility for the entire lifecycle of training data—from planning
and collection to preprocessing, QA, and delivery—treating data quality as a
primary lever for model performance.
-
데이터 중복 제거 최적화: 10만 건 규모 이미지 중복 문제로 인해 스토리지 낭비와 학습 데이터 왜곡이
발생하던 상황에서,
OpenCV 기반의 픽셀 비교 방식 대신 MD5 해싱 알고리즘을 적용하도록 파이프라인을 리팩토링했습니다.
충돌 확률 검토 및 샘플 검증을 통해 정확도를 유지하면서 처리 속도를 약 90% 단축하고, 스토리지 효율을 약 15% 개선했습니다.
-
Data deduplication optimization: Replaced a pixel-level
OpenCV comparison with an MD5 hashing-based approach to resolve storage
waste and data distortion issues in a 100K+ image corpus.
By validating collision probability and running sample verification, I
reduced processing time by ~90% while improving storage efficiency by ~15%
without sacrificing accuracy.
-
데이터 부족(Data Scarcity) 및 콜드 스타트 문제 해결:
- 합성 데이터(Synthetic Data) 파이프라인: 실제 신형 신분증/카드 이미지를 충분히
확보하기 어려운 초기 단계에서,
배경 이미지와 텍스트를 합성하는 Python 기반 이미지 생성 파이프라인을 구축하여
Pre-training에 활용 가능한 학습 데이터를 선제적으로 확보했습니다.
- 해외 데이터셋 구축 자동화: 국가별 포맷이 다른 해외 신분증 데이터셋의 GT(Ground
Truth)를 수작업으로 만들기에는 리소스가 과도하게 소요되는 상황에서,
OCR 엔진과 후처리 로직을 결합한 GT 자동 생성 프로세스를 설계해 구축 초기 비용과 시간을 대폭 절감했습니다.
-
Addressing data scarcity & cold start:
- Synthetic data pipeline: Built a Python-based image
synthesis pipeline that combines background images with textual
components to generate training data for newly released ID formats,
enabling early-stage pre-training without sufficient real samples.
- Automated global dataset construction: Designed an
OCR-engine-based GT generation process with post-processing logic to
replace costly manual labeling for overseas ID formats,
significantly reducing the time and cost required to bootstrap new
datasets.
-
분류 파이프라인 자동화: 기존에는 사람이 이미지 유형과 포맷을 분류하느라 반복적인 수작업이 많이
발생했습니다.
여기에 ML 기반 분류 모델을 도입하고, 신뢰도 기준을 설정하여 사람이 검수해야 하는 케이스만 선별하는 구조로 재설계함으로써,
반복 수작업 비율을 90% 이상 줄였습니다.
-
Classification pipeline automation:
Introduced an ML-based classification model into a previously manual ID/type
classification workflow, and redesigned it so that only low-confidence cases
were routed for human review, reducing repetitive manual work by over 90%.
-
검증 시스템 및 개발 생산성 향상:
- 프로젝트마다 중복 구현되던 파일 처리 로직을 사내 공통 라이브러리로 통합하여, 신규 기능 개발 및 유지보수 시 코드
재사용성을 크게 높였습니다.
- 문서 접근성이 떨어져 가이드라인을 찾는 데 소요되는 시간이 길었던 문제를 해결하기 위해,
사내 문서 검색을 지원하는 VS Code Extension을 직접 개발/배포하여 개발자 생산성과 온보딩 속도를
개선했습니다.
- JSON 정합성 검사, 좌표 오류 탐지 등 데이터 검증 스크립트를 고도화하여 데이터 오류율을 약 5%에서 0.5% 미만으로
줄였습니다.
-
Quality verification & development productivity:
- Consolidated duplicated file-processing logic into an internal
shared library, significantly improving code reuse and
maintainability across projects.
- Developed and deployed an internal VS Code extension for
documentation search to address poor guideline discoverability,
improving developer productivity and onboarding speed.
- Enhanced JSON integrity checks and coordinate error detection
scripts, reducing data error rates from around 5% to below 0.5%.
-
보안 및 비식별화(De-identification):
주민등록번호, 계좌번호 등 민감 정보가 포함된 이미지 데이터의 안전한 활용을 위해
ML 기반 자동 마스킹 툴을 설계·개발했습니다.
이를 통해 개인정보보호 규제(Compliance)를 충족하면서도, 실제 서비스와 연구에 데이터를 활용할 수 있는 기반을 마련했습니다.
-
Security & de-identification:
Designed and implemented an ML-based automatic masking tool for sensitive
information (e.g., ID numbers, account numbers) in image data,
enabling safe data utilization for services and research while complying
with privacy regulations.
-
대규모 데이터셋 구축 및 거버넌스 확립:
국내외 신분증, 위변조 사례, 실사 이미지 등을 포함한 40만 건 이상의 Vision AI 데이터셋을 구축했습니다.
단순 수집에 그치지 않고, 수집·가공 기준과 저장·버전 관리 정책을 문서화하여 조직 차원의 데이터 자산화(Data
Assetization)를 이끌었습니다.
-
Large-scale dataset construction & governance:
Built and managed a Vision AI dataset of over 400K images, including
domestic/overseas IDs, forgery cases, and real-world captures.
Defined collection/processing standards and storage/versioning policies,
driving the transition from ad-hoc data handling to organizational-level
Data Assetization.
-
OCR 도메인 확장 및 데이터 다양성 확보:
- 비정형 문서 데이터: 의료 문서, 지로 용지 등 서식과 레이아웃 변동성이 큰 문서에 대해
GT(Ground Truth) 표준 포맷을 정의하고, 이에 맞는 데이터셋을 구축하여 다양한 OCR 도메인에 대응할 수
있도록 했습니다.
- 특수 목적 데이터: 카드 번호, 계좌 정보 등 특정 인식 대상에 특화된 샘플 데이터 및
폰트(필기체 포함)를 추가 확보하여
모델이 실제 서비스 시나리오에 보다 가깝게 학습될 수 있도록 했습니다.
-
OCR domain expansion & data diversity:
- Unstructured document data: Defined GT standards
and built datasets for highly variable documents such as medical
records and giro forms, enabling the OCR engine to generalize across
diverse layouts.
- Special-purpose data: Curated sample data and fonts
(including handwritten styles) for card numbers and account
information, aligning training data more closely with real service
scenarios.
-
데이터 품질 관리(Data QA) 체계화:
ML 개발팀 및 유관 부서와 협업하여 검수·필터링·피드백 루프를 하나의 프로세스로 정리하고,
파이프라인 전반에 품질 기준을 적용했습니다.
이로써 학습 데이터의 노이즈를 줄이고, 모델 성능에 직접적인 영향을 주는 품질 이슈를 사전에 차단할 수 있었습니다.
-
Systematized data quality assurance:
Collaborated with ML and related teams to formalize a QA loop—inspection,
filtering, and feedback—and applied these quality criteria across the
pipeline.
This reduced label noise and helped proactively prevent data issues that
could negatively impact model performance.
-
프로젝트 개요:
사내 여러 팀이 공통으로 사용하는 OCR 학습 데이터를 효율적으로 관리하기 위해,
온프레미스 파일 서버의 파일 및 디렉토리를 데이터베이스화하여 검색, 관리, 동기화를 원활하게 수행하기 위한 웹 기반 파일 관리 시스템을 기획·설계·구현했습니다.
아키텍쳐 및 기술 스택은 블로그에 정리했습니다.
-
Project overview:
Planned, designed, and implemented an internal data management platform to
centralize scattered file-server directories and enable web-based upload,
download, search, and deletion operations for OCR training data used by
multiple teams.
Architecture and technology stack are summarized in the blog.
Project summary
-
비동기 처리 아키텍처 설계:
수십~수백 GB 단위의 파일 업로드/다운로드 작업 중 브라우저 타임아웃과 서버 부하가 반복적으로 발생하던 문제를 해결하기 위해,
Celery + Redis 기반의 비동기 큐 시스템을 도입했습니다.
파일 작업을 백그라운드 태스크로 분리하고, 진행 상태를 조회할 수 있게 설계하여 안정적인 대용량 파일 처리가 가능해졌습니다.
-
Async architecture design:
To resolve recurring browser timeouts and server overload during large file
operations (tens to hundreds of GB),
I introduced a Celery + Redis-based asynchronous queue system.
File operations were offloaded to background tasks with progress tracking,
enabling stable handling of large-scale file workflows.
-
대용량 파일 관리 및 검색 최적화:
- 업로드/다운로드 시 청크 단위 배치 처리를 구현하여 메모리 사용량을 제어하고, 네트워크 오류 발생 시 재시도 전략을
세분화했습니다.
- Meilisearch를 연동하여 폴더 경로, 파일 이름, 메타데이터를 인덱싱하고, 수십만 개의 파일/디렉토리 내에서
0.1초 이내에 검색 가능한 환경을 구축했습니다.
-
Large file management & search optimization:
- Implemented chunk-based batch processing for uploads/downloads to
control memory usage and refined retry strategies for
network-related failures.
- Integrated Meilisearch to index folder paths, file names, and
metadata, achieving sub-0.1s search latency across hundreds of
thousands of files and directories.
-
풀스택 개발 및 인증/권한 설계:
React 기반의 프론트엔드와 Django/DRF 기반의 백엔드를 직접 구현하여, 비개발자도 사용하기 쉬운 UI/UX를 제공했습니다.
또한 JWT와 세션을 혼합한 인증 구조를 설계하여, 사내 계정 체계와 연동하면서도 역할별 접근 제어(Role-based Access
Control)를 세분화했습니다.
-
Full-stack development & auth/authorization design:
Developed the frontend in React and the backend in Django/DRF to provide a
user-friendly interface for non-developers,
and designed a hybrid JWT + session-based authentication mechanism with
fine-grained, role-based access control integrated with internal account
systems.
-
배포 환경 표준화 및 안정성 확보:
온프레미스 환경에서 Docker Compose를 활용해 개발·스테이징·운영 환경을 컨테이너로 일관되게 구성했습니다.
테스트 서버에 우선 배포해 UAT(User Acceptance Test)를 진행하고, 실제 사용자의 피드백을 반영해 기능과 성능을
보완함으로써 안정적인 서비스 운영 기반을 마련했습니다.
-
Deployment standardization & stability:
Used Docker Compose to standardize development, staging, and production
environments in an on-premise setting.
Deployed first to a test server for UAT, iteratively improving features and
performance based on user feedback to ensure stable, long-term service
operation.
🛠 기술 스택
🛠 Technical Skills
Backend
Python
Django/DRF
FastAPI
Celery
Frontend
React
Redux
JavaScript
HTML/CSS
Data & AI
Pandas/Numpy
TensorFlow
Keras
데이터 파이프라인
Data Pipeline
Infrastructure & Tools
Docker
Redis
Git/GitHub
Airflow
GCP
AWS
🎓 학력
🎓 Education
컴퓨터과학과 학사과정 편입, 현재 재학 중
Bachelor of Computer Science
글로컬IT 전공, 소프트웨어학과 부전공 학사 졸업
Bachelor in Glocal IT, Minor in
Software
👨💻 교육 & 활동
👨💻 Training & Activities
-
서울 우먼잇츠 × 구글 스터디잼 - 'Gemini × GCP: 생성형 AI 기반 웹서비스 만들기' 스터디 참여
(2025.08 ~ 2025.10)
GCP와 Gemini API를 활용한 웹서비스 아키텍처 설계 및 배포 흐름을 학습하며, LLM 기반 서비스 구현 경험을 확장했습니다.
Seoul Women IT's × Google Study Jams - 'Gemini × GCP: Building
Generative AI-based Web Services' Study (2025.08 ~ 2025.10)
Learned how to design and deploy web service architectures using GCP and Gemini API,
extending my hands-on experience with LLM-based applications.
-
서울 우먼잇츠 × 우아한스터디 - '오픈소스 기여 걸음마 떼기' 스터디 참여, Airflow 관련 스터디 진행
(2024.06 ~ 2024.07)
Apache Airflow의 기본 개념과 DAG 설계를 학습하고, 간단한 ETL 파이프라인을 직접 구성해 보며 데이터 워크플로우 오케스트레이션에 대한
이해를 높였습니다.
Seoul Women IT's × Woowahan Study - 'First Steps in Open Source
Contribution' Study, Airflow Focus (2024.06 ~ 2024.07)
Studied Apache Airflow concepts and DAG design, building simple ETL pipelines to
deepen understanding of data workflow orchestration.
-
실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python - ETL, SQL 및 Airflow 학습
(2023.01 ~ 2023.02)
Data Engineering Starter Kit from Silicon Valley with Python -
Learned ETL, SQL, and Airflow (2023.01 ~ 2023.02)
-
앨리스 AI 트랙 3기 - AI 서비스 기획 및 풀스택 개발(flask, react) 교육 과정 수료 (2021.09 ~
2022.03)
Elice AI Track 3rd - Completed a curriculum on AI service planning
and full-stack development (Flask, React) (2021.09 ~ 2022.03)
-
데이터 청년 캠퍼스 - 빅리더 아카데미 과정 수료, 머신러닝 및 딥러닝 이론 학습, 국립공원공단 협업 프로젝트 진행
(2021.06 ~ 2021.09)
Data Youth Campus - Completed Big Leader Academy, studied ML/DL
theory, and conducted a collaboration project with Korea National Park Service
(2021.06 ~ 2021.09)
🏆 수상 및 자격증
🏆 Awards & Certifications
-
최우수상 - 창원시, AI와 디지털트윈 기술을 활용한 맞춤형 등산 코스 추천 및 SNS 서비스 (2021.08)
Excellence Prize - Hiking Course Recommendation and SNS Service
using AI and Digital Twin Technology (Changwon City, 2021.08)
-
공로상 - 국립공원공단, AI와 디지털트윈 기술을 활용한 맞춤형 등산 코스 추천 및 SNS 서비스 (2021.09)
Achievement Award - Hiking Course Recommendation and SNS Service
using AI and Digital Twin Technology (Korea National Park Service, 2021.09)
-
정보처리기사 (2022.06)
Engineer Information Processing (HRD Korea, 2022.06)
-
OPIc IM2 (2024.10) - 영문 기술 문서 독해 및 기본적인 업무 소통 가능
OPIc IM2 (2024.10) - Capable of reading technical documents and
basic business communication in English