TraceLLM: 프롬프트 엔지니어링으로 강화된 요구사항 추적 자동화
초록
본 논문은 요구사항 추적 작업에 대형 언어 모델(LLM)을 적용하기 위해 체계적인 프롬프트 설계와 시범 사례 선택(DSS) 전략을 제안한다. 8개의 최신 LLM과 4개의 도메인·아티팩트 다양성을 갖는 벤치마크 데이터를 사용해 제로·few‑shot 실험을 수행했으며, F2 점수에서 기존 IR, 전통 ML·DL, 파인튜닝 기반 모델들을 모두 능가하는 성능을 달성했다. 특히 라벨‑인식·다양성 기반 시범 선택이 가장 효과적이었다는 결과를 제시한다.
상세 분석
TraceLLM은 요구사항 추적이라는 복합적인 텍스트 매핑 문제에 LLM의 인‑컨텍스트 학습 능력을 최대한 활용하기 위해 세 단계의 프롬프트 엔지니어링 파이프라인을 구축한다. 첫째, 데이터셋을 훈련·검증·테스트 3‑fold로 엄격히 분리해 정보 누수를 방지하고, 동일한 분할을 모든 모델에 적용함으로써 비교 가능성을 확보한다. 둘째, 기본 프롬프트에 ‘역할(Role)’, ‘지시(Instruction)’, ‘컨텍스트(Context)’, ‘제약(Constraints)’, ‘예시(Examples)’ 요소를 단계적으로 추가하며 반복적인 인간‑LLM 피드백 루프를 통해 프롬프트를 최적화한다. 여기서 핵심은 도메인‑특화 용어와 규제 지식을 ‘컨텍스트’에 삽입해 LLM이 요구사항‑설계‑테스트 케이스 간의 의미적 연결을 정확히 파악하도록 하는 것이다. 셋째, few‑shot 설정에서 시범 사례 선택 전략을 체계적으로 비교한다. 무작위, 유사도 기반, 라벨‑인식(positive/negative 균형 유지) 및 다양성 기반(클러스터링 후 대표 샘플) 네 가지 방식을 적용했으며, 실험 결과 라벨‑인식·다양성 결합 방식이 가장 높은 재현율과 F2를 제공한다.
평가에는 GPT‑4o, Claude‑3, LLaMA‑2‑70B, Gemini‑Pro 등 8개의 최신 LLM을 포함했으며, 각 모델에 동일한 프롬프트와 시범 집합을 적용해 일반화 능력을 검증한다. 네 개의 벤치마크는 (1) aerospace 요구사항‑설계, (2) healthcare 규제‑요구사항, (3) 테스트 케이스‑요구사항, (4) 다중 아티팩트(코드‑문서) 매핑을 포함한다. 결과는 기존 IR(VSM, LSI, LDA)과 전통 ML(SVM, NB), 최신 DL(LSTM, S2Trace) 및 파인튜닝된 BERT/RoBERTa 기반 모델을 모두 앞서는 F2 점수(최고 0.71)를 기록한다. 특히 제로‑shot에서도 0.62 이상의 F2를 달성해 프롬프트 자체가 강력한 지식 전달 매개체임을 증명한다.
위험 요소로는 LLM의 온도·토큰 제한, 프롬프트 길이 제약, 그리고 시범 사례가 실제 프로젝트에 얼마나 일반화될 수 있는가가 제시된다. 저자들은 이러한 한계를 완화하기 위해 프롬프트를 모듈화하고, 도메인‑별 사전 정의된 역할 템플릿을 공개함으로써 재현성을 높였다.
전반적으로 TraceLLM은 “프롬프트 품질 = 추적 성능”이라는 핵심 메시지를 실증적으로 뒷받침하며, LLM 기반 반자동 추적 워크플로우(후속 인간 검증 포함)의 실용성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기