서버리스 MLOps 기반 HS 코드 자동 분류 시스템

서버리스 MLOps 기반 HS 코드 자동 분류 시스템
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 서버리스 아키텍처를 활용한 MLOps 프레임워크를 설계·구현하여, 제품 설명 텍스트를 HS(조화관세) 코드로 자동 매핑하는 산업용 솔루션을 제시한다. 텍스트‑CNN 모델이 98 % 정확도를 달성했으며, 자동 A/B 테스트, 이벤트‑드리븐 파이프라인, 자동 스케일링을 통해 재현성·감사성·SLA 준수를 보장한다. 비용 효율성을 위해 트랜스포머보다 경량 모델을 선택하고, 향후 확장성을 고려한 설계가 특징이다.

상세 분석

이 연구는 전통적인 MLOps가 요구하는 인프라 관리 부담을 완전히 서버리스 서비스(AWS Lambda, Step Functions, EventBridge, S3, DynamoDB, SageMaker)로 대체함으로써, 모델 학습·배포·모니터링 전 과정을 코드‑우선(event‑driven) 파이프라인으로 자동화한다. 모델‑agnostic 설계 덕분에 Text‑CNN, LSTM, DNN 등 다양한 딥러닝 구조를 동일한 인터페이스로 교체·실험할 수 있다. 특히 텍스트‑CNN이 98 %의 정확도를 기록했으며, 사전 학습된 Word2Vec·GloVe보다 도메인 특화 커스텀 임베딩을 학습 레이어에 직접 삽입해 성능을 크게 향상시켰다. 데이터는 HS 코드의 5 000여 개 클래스를 포함하지만, 실제 라벨 분포는 심각한 불균형을 보인다. 저자는 SMOTE 대신 계층적 스트래티드 업샘플링을 선택해 소수 클래스의 과적합 위험을 최소화하고, 전체 레코드 수를 815 264에서 818 048로 늘렸다. 하이퍼파라미터 최적화는 베이지안 최적화를 적용해 학습 효율을 높였으며, NAS(Neural Architecture Search)와 Zero‑NAS에 대한 향후 적용 가능성도 논의한다. 서버리스 환경에서 자동 A/B 테스트는 두 개 이상의 모델을 실시간 트래픽에 노출시켜 정확도·지연·비용을 동시에 측정하고, 사전 정의된 SLA 기준을 만족하는 모델만 프로덕션에 승격한다. 비용 측면에서 트랜스포머 기반 모델은 유사한 정확도를 보이지만, 추론 시 메모리·CPU 요구량이 크게 증가해 장기 운영 비용이 비효율적임을 입증한다. 따라서 경량 모델을 기본으로 두고, 필요 시 트랜스포머를 플러그인 형태로 확장할 수 있는 설계가 핵심이다. 전체 파이프라인은 GitOps 기반 CI/CD와 CloudWatch 메트릭을 연동해 모델 드리프트와 데이터 품질 변화를 실시간 감지하고, 자동 재학습 트리거를 발생시킨다. 이러한 설계는 규제 변화에 빠르게 대응하고, 감사 로그와 버전 관리가 자동화된 환경을 제공함으로써 무역·관세 분야의 컴플라이언스 요구를 충족한다.


댓글 및 학술 토론

Loading comments...

의견 남기기