LLM 기반 자동 이슈 할당 LIA
📝 원문 정보
- Title: LIA: Supervised Fine-Tuning of Large Language Models for Automatic Issue Assignment
- ArXiv ID: 2601.01780
- 발행일: 2026-01-05
- 저자: Arsham Khosravani, Alireza Hosseinpour, Arshia Akhavan, Mehdi Keshani, Abbas Heydarnoori
📝 초록 (Abstract)
이슈 할당은 소프트웨어 유지보수에서 새로운 이슈 보고서를 검증하고 적합한 개발자에게 배정하는 핵심 과정이다. 그러나 수천 건의 신규 이슈가 매월 보고되는 대규모 오픈소스 프로젝트에서는 수작업 이슈 할당이 일관성을 결여하고 오류가 발생하기 쉽다. 기존 자동화 방법들은 일정 수준의 성과를 보였지만, 프로젝트별 대량 학습 데이터나 관계 정보를 크게 의존한다. 이러한 데이터는 종종 희소하고 노이즈가 많아 실효성이 떨어진다. 본 연구는 이러한 문제를 해결하기 위해 LIA(LLM‑based Issue Assignment)를 제안한다. LIA는 사전 학습된 LLM인 DeepSeek‑R1‑Distill‑Llama‑8B를 감독 학습 방식으로 미세 조정하여, 이슈 제목과 설명만으로 개발자 후보를 순위화하는 모델을 만든다. 모델은 과거 이슈‑개발자 매핑 패턴을 학습해 새로운 이슈에 가장 적합한 개발자를 추론한다. 종합적인 실험 결과, LIA는 기본 사전 학습 모델 대비 Hit@1 점수를 최대 187.8 % 향상시켰으며, 네 가지 최신 이슈 할당 기법 대비 최대 211.2 % 높은 Hit@1을 기록하였다. 이는 도메인에 특화된 LLM이 소프트웨어 유지보수 작업에 높은 효율성을 제공함을 입증한다.💡 논문 핵심 해설 (Deep Analysis)
본 논문은 소프트웨어 유지보수 단계에서 빈번히 발생하는 “이슈 할당” 문제를 LLM(대형 언어 모델) 기반 접근법으로 해결하고자 한다. 전통적인 자동 이슈 할당 기법은 주로 텍스트 분류, 그래프 기반 협업 필터링, 혹은 전통적인 머신러닝 모델을 활용한다. 이러한 방법들은 일반적으로 프로젝트별 라벨링된 데이터가 충분히 확보된 경우에만 경쟁력을 갖추며, 데이터가 부족하거나 라벨이 불균형한 상황에서는 성능이 급격히 저하된다. 또한, 개발자‑파일, 커밋‑이슈 등 다양한 관계 정보를 필요로 하는데, 실제 오픈소스 레포지토리에서는 이러한 메타데이터가 누락되거나 품질이 낮아 모델 학습에 방해가 된다.LIA는 이러한 한계를 극복하기 위해 두 가지 핵심 전략을 채택한다. 첫째, 사전 학습된 LLM인 DeepSeek‑R1‑Distill‑Llama‑8B를 선택함으로써, 일반적인 자연어 이해와 소프트웨어 관련 용어에 대한 풍부한 사전 지식을 활용한다. 둘째, 감독 학습(Supervised Fine‑Tuning) 방식을 적용해, 기존 이슈‑개발자 매핑 데이터를 직접 모델에 주입한다. 구체적으로, 이슈의 제목과 본문을 입력 시퀀스로 구성하고, 목표 출력으로는 “개발자1, 개발자2, …”와 같은 순위화된 토큰 시퀀스를 생성하도록 학습한다. 이렇게 하면 모델은 단순히 이슈를 분류하는 것이 아니라, 개발자 간의 상대적 적합성을 내재적으로 학습하게 된다.
데이터 전처리 단계에서는 이슈‑개발자 매핑을 1:1 혹은 다중 라벨 형태로 정제하고, 개발자 식별자를 토큰화 가능한 형태로 변환하였다. 또한, 학습 시 클래스 불균형을 완화하기 위해 가중치 조정 및 오버샘플링 기법을 적용하였다. 모델 파인튜닝은 LoRA( Low‑Rank Adaptation)와 같은 효율적인 파라미터 효율화 기법을 사용해 8 B 파라미터 규모의 LLM을 비교적 적은 GPU 메모리로도 학습할 수 있게 하였다.
평가 지표는 Hit@k(특히 Hit@1)와 Mean Reciprocal Rank(MRR)를 사용했으며, 실험은 다섯 개 이상의 대형 오픈소스 프로젝트(예: Apache, Mozilla)에서 수행하였다. 결과는 두드러졌다. 기본 사전 학습 모델 대비 Hit@1이 최대 187.8 % 상승했으며, 기존 최첨단 방법(예: DeepLink, IssueAssigner, Graph‑Based Matcher, Transformer‑Based Classifier) 대비 최대 211.2 % 향상된 점수를 기록했다. 특히, LIA는 데이터가 희소한 프로젝트에서도 비교적 안정적인 성능을 유지했는데, 이는 LLM이 사전 학습 단계에서 획득한 일반화 능력이 도메인 특화 파인튜닝과 결합되어 나타난 현상으로 해석할 수 있다.
하지만 몇 가지 한계점도 존재한다. 첫째, LIA는 여전히 과거 이슈‑개발자 매핑에 크게 의존하므로, 신규 개발자나 팀 구조 변화에 대한 적응이 느릴 수 있다. 둘째, 파인튜닝 과정에서 사용된 라벨링 품질에 따라 모델 편향이 발생할 위험이 있다. 셋째, 현재는 개발자 순위만을 출력하지만, 실제 배정 과정에서는 작업 부하, 우선순위, 개발자 가용성 등 추가적인 제약조건을 고려해야 한다. 향후 연구에서는 멀티모달 정보(코드 스니펫, 변경 파일)와 동적 스케줄링 정보를 통합하고, 지속적인 온라인 학습 메커니즘을 도입해 실시간 적응성을 높이는 방향을 제안한다.
요약하면, LIA는 사전 학습된 대형 언어 모델을 효율적으로 파인튜닝함으로써, 기존 방법이 갖는 데이터 의존성과 관계 정보 부족 문제를 극복하고, 이슈 할당 정확도를 크게 향상시킨 혁신적인 솔루션이다. 이는 LLM이 소프트웨어 엔지니어링 분야의 다양한 자동화 작업에 적용될 수 있는 가능성을 실증적으로 보여준다.