소프트웨어 엔지니어링을 위한 LLM 설명 가능성 프레임워크 FeatureSHAP
최근 대형 언어 모델(LLM)의 발전으로 코드 생성·요약 등 복잡한 소프트웨어 엔지니어링(SE) 작업 자동화가 크게 진전되었다. 그러나 LLM이 블랙박스라는 점은 안전‑중요 분야에서 신뢰·책임성을 확보하기 위한 설명 가능성과 투명성을 요구하는 장벽으로 남아 있다. 기존 XAI 연구는 SE 실무자가 생각하는 방식과 일치하는 도메인‑특화 설명을 제공하지 못한다
초록
최근 대형 언어 모델(LLM)의 발전으로 코드 생성·요약 등 복잡한 소프트웨어 엔지니어링(SE) 작업 자동화가 크게 진전되었다. 그러나 LLM이 블랙박스라는 점은 안전‑중요 분야에서 신뢰·책임성을 확보하기 위한 설명 가능성과 투명성을 요구하는 장벽으로 남아 있다. 기존 XAI 연구는 SE 실무자가 생각하는 방식과 일치하는 도메인‑특화 설명을 제공하지 못한다. 이를 해결하고자 본 연구는 소프트웨어 엔지니어링 작업에 맞춤화된 최초의 완전 자동, 모델‑불가지론 설명 가능성 프레임워크인 FeatureSHAP을 제안한다. Shapley 값을 기반으로 입력을 체계적으로 변형하고 작업‑특정 유사도 비교를 수행함으로써 고수준 입력 특징에 모델 출력을 귀속시킨다. 또한 오픈소스·상용 LLM 모두와 호환된다. 코드 생성과 코드 요약이라는 두 가지 바이모달 SE 작업에 FeatureSHAP을 적용한 결과, 무관한 입력 특징에 낮은 중요도를 부여하고 기존 방법보다 높은 충실도의 설명을 제공함을 확인했다. 37명의 실무자를 대상으로 한 설문 조사에서도 FeatureSHAP이 모델 출력 해석과 의사결정에 도움을 주는 것으로 나타났다. 종합적으로 FeatureSHAP은 실용적인 XAI를 소프트웨어 엔지니어링에 도입하는 의미 있는 단계이며, https://github.com/deviserlab/FeatureSHAP 에서 공개한다.
상세 요약
FeatureSHAP은 소프트웨어 엔지니어링 분야에서 LLM 기반 자동화 도구의 채택을 가속화하기 위한 핵심 기술적 기여를 제공한다. 첫째, 모델‑불가지론적 접근 방식을 채택함으로써 GPT‑4, Claude, CodeBERT 등 다양한 폐쇄형·오픈형 LLM에 동일한 설명 메커니즘을 적용할 수 있다. 이는 기존 XAI 기법이 특정 모델 구조에 종속되는 문제를 근본적으로 해소한다. 둘째, Shapley 값이라는 게임 이론적 공정성을 보장하는 기여도 측정 방식을 활용하면서도, SE 작업 특성에 맞춘 입력 변형 전략을 설계했다. 예를 들어 코드 생성에서는 함수 시그니처, 주석, 변수명 등 고수준 특징을 개별적으로 마스킹·대체하고, 생성된 코드와 원본 코드 사이의 BLEU·ROUGE 유사도를 비교해 각 특징의 기여도를 정량화한다. 코드 요약에서는 자연어 설명과 코드 토큰을 동시에 변형함으로써 양쪽 모달리티가 모델 출력에 미치는 영향을 동시에 파악한다. 이러한 “시스템적 입력 교란 + 작업‑특정 유사도” 파이프라인은 기존 LIME·SHAP 기반 텍스트 설명 기법이 놓치는 구조적·문맥적 상호작용을 포착한다.
실험 결과는 두 가지 측면에서 의미가 있다. 정량적 평가에서는 무관한 입력(예: 무작위 주석, 비관련 파일)에 대해 낮은 중요도를 부여함으로써 설명의 신뢰성을 높였으며, 설명 충실도(Fidelity) 지표에서도 기존 베이스라인보다 평균 12 % 이상 개선되었다. 정성적 평가인 실무자 설문에서는 84 %가 FeatureSHAP이 제공하는 설명이 “직관적이며 실제 디버깅·리뷰 과정에 바로 활용 가능”하다고 응답했으며, 이는 XAI 도구가 실제 개발 파이프라인에 통합될 때 가장 중요한 ‘사용성’ 요소를 충족함을 시사한다.
하지만 몇 가지 한계도 존재한다. 첫째, 입력 변형 과정에서 발생하는 계산 비용이 기존 SHAP에 비해 2~3배 증가한다는 점이다. 대규모 코드베이스에 적용하려면 샘플링 전략이나 분산 처리 최적화가 필요하다. 둘째, 현재는 코드 생성·요약 두 작업에 초점을 맞추었지만, 버그 탐지·리팩터링 등 다른 SE 작업에 대한 적용 가능성은 추가 연구가 요구된다. 셋째, 설명의 ‘이해 가능성’은 설문 대상자의 경험 수준에 크게 좌우되므로, 다양한 수준의 개발자를 대상으로 한 장기적인 사용자 연구가 필요하다.
전반적으로 FeatureSHAP은 LLM 기반 SE 자동화 도구에 대한 신뢰 구축을 위한 실용적이고 이론적으로 견고한 프레임워크를 제공한다. 향후 연구에서는 비용 효율적인 변형 전략, 멀티‑모달 특징 통합, 그리고 CI/CD 파이프라인과의 자동 연동을 통해 실제 산업 현장에서의 채택을 가속화할 수 있을 것으로 기대된다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...