소형 코드 생성 모델 미피코더 최신 성능

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Mify‑Coder는 2.5 B 파라미터 규모의 코드 전용 LLM으로, 4.2 T 토큰을 사용해 계산 효율적인 전략으로 학습하였다. 고품질 큐레이션 데이터와 에이전트 기반 합성 데이터를 결합하고, LLM 기반 품질 필터링으로 데이터 밀도를 높였다. CPT‑SFT와 다양한 데이터 혼합·샘플링 기법을 통해 단일 연속 학습 흐름에서 안전성·정확성을 확보했으며, 기존 대형 모델을 능가하는 코딩·함수 호출 벤치마크 성능을 기록한다. 양자화 버전은 일반 데스크톱에서도 실행 가능하도록 설계되었다.

상세 분석

Mify‑Coder는 2.5 B 파라미터라는 비교적 작은 규모에도 불구하고, 4.2 T 토큰이라는 방대한 학습 데이터를 활용해 “컴퓨팅 최적화(Compute‑optimal)” 전략을 적용한 점이 가장 눈에 띈다. 여기서 컴퓨팅 최적화는 모델 크기‑데이터‑학습 단계 간의 균형을 맞추어, 동일한 FLOP 예산 하에서 가장 높은 성능‑효율을 달성하도록 설계된 접근법이다. 논문은 Mify‑2.5 B 2라는 기존 기반 모델 위에 “CPT‑SFT(Continual Pre‑training with Structured Fine‑tuning)” 목표를 추가함으로써, 사전 학습 단계와 정밀 튜닝 단계 사이의 경계를 흐리게 만든다. 이는 데이터 혼합 비율을 동적으로 조정하고, 샘플링 온도와 토큰 마스킹 비율을 단계별로 변화시켜, 모델이 다양한 코드 스타일과 언어에 적응하도록 만든다.

데이터 측면에서는 고품질 큐레이션 소스(오픈소스 리포지터리, 공식 문서, 교육용 예제)와 에이전트가 설계한 프롬프트를 통해 생성된 합성 데이터가 결합된다. 특히 “에이전트 기반 프롬프트 설계”는 기존 인간 라벨링 비용을 크게 절감하면서도, 복잡한 함수 호출 시나리오와 API 연동 코드를 자동으로 생성·검증한다는 점에서 혁신적이다. 생성된 합성 데이터는 또다시 LLM 기반 품질 필터링을 거쳐, 노이즈가 최소화된 고밀도 학습 샘플만을 남긴다. 이 과정은 “데이터 밀도 향상”이라는 용어로 표현되며, 동일한 토큰 수 대비 정보량을 크게 늘려 작은 모델에서도 높은 일반화 성능을 얻을 수 있게 한다.

안전성 측면에서는 사전 학습 단계와 정밀 튜닝 단계 모두에서 “안전성 정렬(Safety Alignment)” 데이터를 삽입하고, 위험 코드(예: 악성 스크립트, 보안 취약점)를 자동 검출·제거하는 파이프라인을 구축했다. 실험 결과, Mify‑Coder는 기존 대형 코드 모델(예: 6 B‑12 B 파라미터) 대비 동일한 안전성 지표에서 동등하거나 더 나은 점수를 기록했다.

성능 평가에서는 표준 코딩 벤치마크(HumanEval, MBPP)와 함수 호출 기반 평가(AgentBench, OpenAI Function‑Calling Suite)에서 Mify‑Coder가 2배 이상의 토큰 효율성을 보이며, 대형 모델 대비 5 %~10 % 높은 정확도를 달성했다. 특히 “단일 연속 학습 흐름”이라는 설계 덕분에 중간 체크포인트 없이도 지속적인 성능 향상이 관찰되었다.

양자화 실험에서는 4‑bit 및 8‑bit 정밀도 모델을 각각 데스크톱 GPU와 CPU 환경에 배포했으며, 추론 지연시간은 1.2배~1.5배 정도 증가했지만, 메모리 사용량은 70 % 이상 절감되었다. 이는 실제 개발 현장에서 고성능 서버 없이도 코드 자동 완성·디버깅 도구로 활용 가능함을 의미한다.

전체적으로 Mify‑Coder는 “데이터·컴퓨팅·안전성”을 삼위일체로 설계한 사례이며, 작은 파라미터 규모에서도 대형 모델에 필적하는 성능을 입증함으로써, 차세대 코드 전용 LLM 개발에 있어 비용‑효율성의 새로운 패러다임을 제시한다.

소형 코드 생성 모델 미피코더 최신 성능

초록

상세 분석

댓글 및 학술 토론

의견 남기기