대형 언어 모델로 자동 이슈 할당 혁신

2026년 02월 04일

읽는 시간: 9 분

...

#paper #AI 요약

📝 원문 정보

- Title: LIA Supervised Fine-Tuning of Large Language Models for Automatic Issue Assignment
- ArXiv ID: 2601.01780
- 발행일: 2026-01-05
- 저자: Arsham Khosravani, Alireza Hosseinpour, Arshia Akhavan, Mehdi Keshani, Abbas Heydarnoori

📝 초록

본 논문에서는 소프트웨어 개발 프로젝트에서 이슈 할당의 중요성과 그 과정에 대한 문제점을 다룹니다. 특히 수동 할당이 비효율적이며, 시간을 많이 잡아먹는다는 점을 강조합니다. 이를 해결하기 위해 LLM 기반의 자동화된 이슈 할당 방법론인 LIA(Large Language Model-based Issue Assignment)를 소개하며, 이 방법론은 텍스트 기반과 그래프 기반 방법론들의 한계점을 극복할 수 있는 가능성을 제시합니다. 본 연구에서는 두 개의 대규모 오픈소스 프로젝트 데이터셋(EclipseJDT와 Mozilla)을 사용하여 LIA가 기존 방법론들보다 우수한 성능을 보이는 것을 입증하였습니다.

💡 논문 해설

#### 3개 핵심 기여

LIA 소개: LLM(Large Language Model)-기반의 이슈 할당 방법론으로, 텍스트와 그래프 기반 접근법의 한계점을 극복합니다.
데이터셋 활용: EclipseJDT와 Mozilla 데이터셋을 사용하여 모델이 실제 이슈를 잘 처리할 수 있도록 학습시킵니다.
성능 평가: LIA는 기존 방법론들보다 훨씬 높은 정확도로 이슈 할당을 수행합니다.

간단한 설명과 비유

초급

소프트웨어 개발에서 문제가 발생하면 이를 해결하기 위해 특정 개발자를 찾아야 합니다. 수동으로 찾는 것은 시간이 오래 걸리고 잘못된 사람에게 넘길 가능성이 높습니다. LIA는 이런 문제를 자동화하여 더 효율적으로 이슈를 할당하는 방법론입니다.

중급

LIA는 대형 언어 모델을 사용해 이슈 내용과 가장 잘 맞는 개발자를 찾아냅니다. 이를 통해 수동으로 할당하던 과정에서 발생하던 오류와 시간 낭비를 줄일 수 있습니다.

고급

LLM은 엄청난 양의 데이터로부터 학습하여 이슈 내용과 개발자 간의 관계를 이해합니다. 이를 통해 LIA는 기존 텍스트 기반 및 그래프 기반 방법론들보다 더 정확하게 이슈 할당을 수행할 수 있습니다.

Sci-Tube 스타일 스크립트

초급

“소프트웨어 개발에서 문제가 생겼을 때, 그 문제를 해결하는 사람이 중요합니다. LIA는 이런 문제를 자동으로 찾아주는 도우미 역할을 합니다.”

중급

“LIA는 엄청난 양의 데이터로부터 학습한 대형 언어 모델입니다. 이 모델은 이슈 내용과 가장 잘 맞는 개발자를 찾아냅니다.”

고급

“LLM(Large Language Model)은 텍스트와 그래프 기반 방법론들의 한계점을 극복합니다. LIA는 이런 LLM을 이용해 이슈 할당 과정을 자동화하고, 그 결과 더 높은 정확도를 제공합니다.”

📄 논문 발췌 (ArXiv Source)

# 서론

소프트웨어 개발에서 Jira, Bugzilla 및 GitHub와 같은 이슈 추적 시스템은 사용자나 기여자가 보고한 이슈를 관리하고 해결하기 위해 사용됩니다. 새로운 이슈가 제출되면 일반적으로 프로젝트 유지보수자 또는 이슈 할당자가 검토하여 그 유효성을 확인하고 심각도를 판단하며 적절한 개발자에게 할당합니다. 이를 이슈 할당이라고 하며, 시기적절하고 정확한 이슈 해결을 보장하는 데 필수적입니다. 이슈 할당이 효과적이지 않을 때는 이슈가 종종 적합한 개발자에게 도달하기 전에 여러 차례 재할당되는 경우가 많습니다. 예를 들어 Eclipse 프로젝트에서 이슈#16036은 12회 이상 재할당되었고 거의 100일이 걸렸는데, 이는 수동 할당이 비효율적이고 유지보수 비용을 증가시키며 소프트웨어 배달을 지연시킬 수 있다는 것을 보여줍니다.

유능한 이슈 할당은 어려운 작업입니다. 코드베이스에 대한 자세한 이해, 프로젝트 구조, 그리고 기여자의 전문성과 가용성을 필요로 합니다. 이러한 과제는 오픈소스 프로젝트에서 더욱 중요합니다. 그 이유는 기여자의 역할이 유동적이고 개발자들의 전문성이 항상 잘 문서화되어 있지 않기 때문입니다. 따라서 수동 할당은 일관성 없고 오류가 많아질 수 있습니다. 또한 소프트웨어 프로젝트가 성장함에 따라 이슈 보고서의 수는 급격히 증가합니다. Eclipse, Mozilla 및 Google Chromium과 같은 대규모 오픈소스 프로젝트에서는 매달 수천 건의 새로운 이슈 보고서를 받습니다. 이런 상황은 수동 할당을 점점 더 지속 불가능하게 만듭니다.

이 문제를 해결하기 위해 자동화된 이슈 할당 솔루션이 개발되었습니다. 이러한 솔루션은 일반적으로 텍스트 기반 및 그래프 기반 방법으로 나뉩니다.

텍스트 기반 접근법은 이슈 할당을 감독 학습 작업으로 간주하며, 머신러닝(ML)과 딥러닝(DL) 기술을 사용하여 이슈 제목과 설명 등 텍스트 정보를 바탕으로 가장 적합한 개발자를 예측합니다. 하지만 이러한 방법에는 눈에 띄는 한계가 있습니다. 그들은 일반적으로 잘 수행하려면 상당량의 라벨링 데이터가 필요하며, 작은 프로젝트나 이슈 역사가 제한적인 경우에는 실용성이 낮습니다. 이러한 대규모 라벨링 데이터 의존성은 텍스트 기반 방법의 일반화를 저하시키고 실제 환경에서의 효과성을 제한합니다.

이러한 과제들을 극복하기 위해 최신 접근법들은 개발자들, 이슈 보고서 및 소프트웨어 아티팩트 간 관계를 나타내는 그래프 기반 방법론을 탐구하고 있습니다. 이러한 접근법은 자주 그래프 신경망(GNNs)을 사용하여 구조적, 의미적, 시점 정보를 반영하는 임베딩을 학습합니다. 이를 통해 과거에 해결한 이슈와 유사한 문제를 처리하려는 개발자의 패턴을 모델링할 수 있습니다. 그래프 기반 방법은 효과적이지만 일반적으로 계산 비용이 높으며, 그래프 샘플링이나 무작위 산책 등의 기법에 의존하여 중요한 연결을 빠뜨릴 위험이 있습니다. 또한 이슈와 개발자 간의 명시적 링크가 부족하거나 노이지한 경우도 많습니다.

대형 언어 모델(LLMs)의 최근 발전은 다양한 소프트웨어 유지보수 작업에서 우수한 결과를 보여주었습니다. 이 성공은 주로 LLMs의 대규모 다변화된 코퍼스에 대한 사전 학습에 크게 의존합니다. 이를 통해 일반적인 언어 패턴과 도메인별 프로그래밍 지식을 동시에 배울 수 있습니다. 따라서 LLMs는 이전 이슈 할당 접근법의 두 가지 주요 한계점을 극복하는 길을 제시할 가능성이 있습니다: (i) 텍스트 기반 방법론의 대규모 라벨링 데이터에 대한 의존성, (ii) 그래프 기반 방법론의 완전하고 노이지하지 않은 관계형 데이터에 대한 의존성. 게다가 최근 연구는 도메인 적응을 통해 미세 조정하거나 지시어 조정을 수행할 때 LLMs가 소프트웨어 유지보수 작업에서 더 강력한 결과를 보여준다는 것을 나타냈습니다.

이러한 통찰에 동기 부여받아 우리는 LLM-based Issue Assignment 기법, 즉 LIA를 소개합니다. 우리는 오픈소스 LLM 모델인 DeepSeek-R1-Distill-Llama-8B을 사용하여 감독 학습을 통해 이슈 보고서 텍스트와 이를 해결한 개발자 간의 관계를 배울 수 있도록 미세 조정합니다. 이 과정에서 모델은 할당자 식별자와 그들이 일반적으로 해결하는 이슈의 의미적 특징 사이의 연관성을 학습합니다. 추론 단계에서는 새로운 이슈가 제공될 때, 이에 기반하여 후보 할당자를 순위지정된 목록으로 생성합니다.

이러한 미세 조정은 두 개의 널리 사용되는 이슈 할당 연구 데이터셋인 EclipseJDT와 Mozilla를 적용했습니다. 이러한 데이터셋에는 수천 건의 실제 이슈 보고서가 포함되어 있으며, 이를 해결한 개발자도 포함되어 있습니다. 이러한 예제로부터 학습함으로써 LIA는 새로운 이슈 보고서에 대해 가장 가능성 있는 개발자를 추천할 수 있습니다.

LIA의 효과성을 평가하기 위해 기존 미세 조정된 모델과 최신 이슈 할당 기법을 비교하는 포괄적인 연구를 수행했습니다. 특히, 우리는 LIA와 기본 LLM을 네 가지 대표적인 접근법인 NCGBT, GCBT, GRCNN 및 CBR과 비교합니다. 우리의 평가 설계는 두 개의 주요 연구 질문에 답하도록 구성되었습니다:

RQ1: 이슈 할당 작업에서 LIA는 원래 사전 학습된 모델보다 어떻게 수행됩니까? LIA는 양 데이터셋에서 제로샷 평가 조건에서 기본 모델을 일관되게 능가했습니다. 미세 조정된 모델은 이슈 할당 정확도에 큰 향상을 이루었으며, EclipseJDT에서 Hit@1에서 최대 +187.8%, Mozilla에서는 Hit@7에서 +6.3%의 개선을 보였습니다.
RQ2: LIA는 최신 접근법과 어떻게 비교됩니까? LIA는 두 데이터셋 모두에서 모든 최신 베이스라인을 일관되게 능가했습니다. 가장 강력한 베이스라인인 NCGBT에 비해, EclipseJDT에서는 Hit@1에서 +94.5%의 개선, Mozilla에서는 Hit@1에서 +211.2%의 개선을 보였습니다.

결론적으로 본 연구는 다음과 같은 핵심 기여를 제공합니다:

우리는 LIA라는 감독 학습을 통해 미세 조정된 LLM 이슈 할당 방법론을 제시합니다. 실제 이슈 보고서와 알려진 할당자를 통해 모델이 이슈 설명과 가장 관련 있는 개발자 사이의 매핑을 배웁니다.
우리는 LIA를 기본 모델 및 네 가지 최신 접근법과 종합적인 실증적 비교를 수행합니다.

본 논문의 나머지 부분은 다음과 같이 구성됩니다. 섹션 2에서는 실제 이슈 추적기에서 수동 이슈 할당의 어려움을 설명하는 동기 부여 사례를 제시합니다. 섹션 3에서는 LIA의 접근법과 구현에 대해 설명합니다. 섹션 4은 평가 방법을 설명하고 결과를 논의합니다. 섹션 5에서는 우리의 발견의 함의를 논의합니다. 섹션 6에서는 우리의 연구 결과에 대한 가능성 있는 위협을 다룹니다. 섹션 7은 관련 작업을 검토합니다. 마지막으로, 섹션 8에서는 논문을 마무리하고 미래 연구 방향을 제시합니다.

동기 부여

Mozilla 이슈 33654의 타임라인, 이 이슈는 반복적인 재할당, 다시 열림 및 소유권 불확실성으로 거의 25년 동안 해결되지 않았습니다.

수동 이슈 할당은 소프트웨어 유지보수 프로세스에 비효율성과 지연을 초래하는 경우가 많습니다. 특히 구체적인 사례를 살펴보면 Eclipse 이슈 16036 “UI not responsive when stack is deep"이 있습니다. 이는 수동 개발자 할당의 실제 어려움을 잘 보여주는 복잡하고 지속적인 재할당 패턴을 나타냅니다.

이 이슈는 처음 신규로 보고되어 빠르게 개발자에게 할당되었지만, 짧은 시간 후에 다른 개발자에게 재할당되었습니다. 그 이후 상태가 다시 신규로 변경되고 다시 한 번 재할당되었습니다. 이슈는 “후에"라는 해결 사항으로 마크되었으나 몇 달 동안 반복적으로 다시 열리면서 계속해서 다른 개발자들 사이를 오갔습니다. 목표 마일스톤도 여러 개의 릴리즈 버전을 거치며 변경되었습니다. 이러한 재오픈, 재할당 및 마일스톤 변경 패턴은 수동 할당이 초기에 가장 적합한 개발자를 식별하지 못했을 때 발생하는 불확실성과 비효율성을 반영합니다.

Mozilla 이슈 33654 “TEXTAREA incorrectly applying ROWS= and COLS= (horizontal / vertical scrollbar extra space, with overlay scrollbars disabled)“에서도 유사한 사례를 찾을 수 있습니다. 이 이슈의 수명은 그림 1에서 시각화되어 있습니다. 이 이슈는 거의 25년 동안 열려있었으며, 비효율적인 할당이 단순한 수정을 지연시킬 수 있음을 잘 보여주는 예입니다. 이 이슈는 1999년에 처음 제보되었고 즉시 여러 번 재할당되었습니다. 프로젝트 유지보수자가 적절한 소유권을 결정하는 데 어려움을 겪었기 때문입니다. 이후 몇 년 동안 여러 차례 재할당되며 해당 문제를 해결하기 위한 전문성이 있는 개발자를 찾는 데 대한 불확실성이 반영되었습니다. 초기에 수정이 시도되었고 이슈가 해결됨으로 표시되었지만, 테스트 중에 다시 나타날 때마다 여러 번 다시 열렸습니다. 보고서는 계속해서 다른 사람에게 넘겨졌으며 시간이 지남에 따라 6명의 개발자가 관여하게 되었습니다. 몇 차례에는 완전히 할당되지 않아 Mozilla의 기본 소유자로 돌아갔습니다. 일부 개발자는 부분적인 수정을 시도했지만 결국 자신을 재할당하지 않았고 더 큰 지연이 발생했습니다. 그 다음 20년 동안 이슈는 거의 전진을 보지 못했습니다. 상태는 해결과 다시 열림 사이에서 반복적으로 변경되었으며, 최종적으로 필요한 수정이 받아들여지지 않았습니다. 이러한 재할당 및 다시 열린 반복적인 싸이클은 대규모 프로젝트에서 자동화 지원과 명확한 소유권의 부재가 지속적인 정체를 초래할 수 있는 수동 이슈 할당의 어려움을 잘 보여줍니다. 2023년에는 원래 제보된 지 거의 25년 후에, 새로운 보고서로 표시되어 필요한 수정이 이루어진 것으로 마무리되었습니다.

이러한 사례들은 수동 할당이 이슈 할당 프로세스에 큰 비효율성을 초래한다는 것을 강조합니다. 잘못된 개발자에게 할당되면 이슈는 종종 해결되지 않으며, 불필요한 전달과 자주 다시 열림으로 인해 지연됩니다. 이러한 지연은 소유권이 불명확하고 효과적인 조정이 이루어지지 않을 때 발생하며, 해결 시간을 연장시킵니다. 우리의 연구에서는 LIA를 소개합니다. 이는 이슈 보고서의 텍스트 내용에 기반한 자동화된 이슈 할당을 설계한 감독 학습 미세 조정된 LLM입니다. 모델이 과거 이슈 데이터로 학습함으로써 초기 잘못된 할당 가능성을 줄이고 할당 프로세스를 간소화합니다. 이것은 특히 수동 할당이 일관성 없거나 과부하 상태일 수 있는 대형 협업 프로젝트에서 가치가 있습니다.

접근법

이 섹션에서는 사전 학습된 LLM(DeepSeek-R1-Distill-Llama-8B)을 자동화된 이슈 할당 작업에 적응시키기 위한 방법론을 포괄적으로 설명합니다. 그림 2에서 볼 수 있듯이, 우리의 접근법은 두 가지 주요 단계로 구성됩니다: (1) 데이터 준비 및 전처리와 (2) 지시어 프롬프트를 사용한 감독 학습. 먼저 EclipseJDT와 Mozilla와 같은 대규모 오픈소스 프로젝트에서 이슈 트래커 데이터셋을 수집하고 필터링합니다. 보고서는 연대순으로 정렬되고, 훈련 세트와 테스트 세트로 분할되며, 지시어 스타일의 프롬프트로 포맷팅됩니다. 모델은 인과 언어 모델링 손실을 사용하여 이슈 텍스트만을 바탕으로 가장 적합한 개발자를 예측하도록 미세 조정됩니다. 이를 통해 모델은 과거 이슈-개발자 할당에서 학습하고, 그 패턴을 활용하여 새로운 이슈에 대해 가장 유사한 과거 작업을 처리할 가능성이 높은 개발자를 식별합니다.

제목

Google 검색 엔진이 검색 옵션에서 사라져 Bing이 기본값으로 설정되었습니다.

설명

User Agent:
Mozilla/5.0 (Android 8.1.0; Mobile; rv:66.0)
Gecko/66.0 Firefox/66.0

재현 단계:
자동 업데이트로 66.0a1에 도달.
어떤 것을 검색했습니다 (Google을 사용한다고 가정).

실제 결과:
Bing 결과가 나타났습니다.
Bing이 기본값으로 설정되었고
Google이 검색 옵션에서 완전히 사라졌습니다.

예상 결과:
Google을 사용하여 검색합니다.

할당자

**할당자 식별자**

Mozilla 데이터셋에서의 예시 이슈 보고서

데이터셋

우리는 EclipseJDT와 Mozilla와 같은 확립된 오픈소스 소프트웨어 생태계로부터 두 개의 대규모 데이터셋을 사용하여 연구를 수행했습니다. 이러한 프로젝트는 광범위한 공개 이슈 트래커를 유지하고 있어 실제적인 및 재현 가능한 설정에서 자동화된 이슈 할당을 연구하는 데 이상적이었습니다. 이러한 데이터셋은 과거 작업에서 널리 사용되었습니다 , 이슈 보고서와 할당자 주석이 풍부하고 성숙한 역사를 제공합니다 (그림 3 참조).

EclipseJDT 데이터셋은 20,000개 이상의 해결된 이슈 보고서를 포함했습니다. 각 보고서는 이슈 제목, 상세 설명, 해결 상태, 우선 순위 수준 및 할당 개발자의 식별자와 같은 메타데이터를 포함합니다. Mozilla 데이터셋은 훨씬 더 커서 약 120,000개의 해결된 이슈 보고서가 있으며 비슷한 구조와 상세도를 가지고 있습니다.

이 정보를 사용하여

ArXiv 원문 PDF 보기

📊 논문 시각자료 (Figures)

대형 언어 모델로 자동 이슈 할당 혁신

📝 원문 정보

📝 초록

💡 논문 해설

간단한 설명과 비유

Sci-Tube 스타일 스크립트

📄 논문 발췌 (ArXiv Source)

동기 부여

접근법

데이터셋

📊 논문 시각자료 (Figures)

감사의 말씀

목차

목차

📝 원문 정보

📝 초록

💡 논문 해설

간단한 설명과 비유

Sci-Tube 스타일 스크립트

📄 논문 발췌 (ArXiv Source)

동기 부여

접근법

데이터셋

📊 논문 시각자료 (Figures)

감사의 말씀

관련 게시글

3D 다중 객체 장면에서의 2D 시스템 비디오와 언어 정합성 및 멀티정보 도함수 없는 제어

AI 강화된 양자점 해밀토니안 튜닝을 통한 마이저나 모드 형성

AI 기반 다중 클러스터 환경의 클라우드 리소스 최적화

검색 시작

검색 결과 없음