LLM을 활용한 건축 의사결정 위반 자동 탐지: 대규모 실증 연구
초록
본 논문은 109개의 오픈소스 프로젝트에서 980개의 ADR을 대상으로, 하나의 LLM이 위반 여부를 탐지하고 세 개의 보조 LLM이 결과를 검증하는 파이프라인을 구축하였다. 모델 간 합의도와 정확도, 정밀도·재현율을 측정한 결과, 코드에 명시적으로 드러나는 결정은 90% 이상 정확하게 판별했지만, 배포 환경이나 조직적 맥락에 의존하는 암묵적 결정은 성능이 크게 떨어졌다. 인간 전문가와의 비교 실험을 통해 LLM이 설계 규정 준수 검증을 보조할 수 있음을 확인했지만, 완전한 대체는 아직 불가능함을 강조한다.
상세 분석
이 연구는 건축 의사결정 기록(ADR)의 위반을 자동으로 탐지하기 위해 최신 대형 언어 모델(LLM)을 활용한 최초 규모의 실증을 수행했다. 데이터 수집 단계에서 기존 연구가 제공한 921개의 ADR 저장소를 기반으로, 코드 규모(TLoC)와 커밋 수 기준 4사분위수 이상인 166개의 프로젝트를 선별하고, 최종적으로 109개의 프로젝트에서 980개의 ADR 파일을 확보하였다. 이는 다양한 언어와 도메인을 포괄하는 충분히 대표적인 샘플이라고 할 수 있다.
파이프라인 설계는 ‘대형 추론 모델(LRM)’과 ‘검증 모델(V1~V3)’로 구분한다. LRM은 Marco‑o1(7.6B)으로, 입력된 ADR 텍스트와 해당 코드 스니펫을 동시에 처리해 “위반 여부”와 그 근거를 JSON 형태로 출력한다. 검증 모델은 Mistral‑NeMo(12.2B), Qwen3‑14B, Llama‑3.1‑8B 등 서로 다른 아키텍처와 학습 목표를 가진 모델을 사용해 LRM의 결과에 대해 독립적인 평가를 수행한다. 이러한 다중 모델 구조는 단일 모델의 편향을 완화하고, 합의도(agreement)를 정량화할 수 있게 한다.
실험에서는 1,000여 건의 샘플에 대해 인간 전문가 3명이 라벨링을 수행했으며, 전문가 간의 의견 일치를 기준으로 ‘정답’ 데이터를 구축했다. LRM의 전체 정확도는 92%에 달했으며, 정밀도와 재현율도 각각 90% 이상을 기록했다. 특히 “코드에 직접 드러나는 결정”(예: 특정 라이브러리 사용 금지, 인터페이스 구현 규칙 등)에서는 거의 완벽에 가까운 성능을 보였다. 반면, “배포 환경 의존 결정”(예: 클라우드 인프라 설정, CI/CD 파이프라인 옵션)이나 “조직적 정책”(예: 보안 인증 절차, 팀 내부 코드 리뷰 규칙)과 같이 코드 외부 정보를 필요로 하는 경우 정확도가 65% 이하로 급락했다. 이는 LLM이 현재 코드와 텍스트를 연결하는 수준에서는 뛰어나지만, 외부 시스템 상태나 비공식적인 관행을 추론하는 데 한계가 있음을 시사한다.
모델 간 합의도는 Cohen’s κ 기준으로 0.78로 ‘상당히 높은’ 수준을 보였으며, 특히 LRM과 검증 모델 간 일치율이 88%에 달했다. 그러나 특정 사례에서 검증 모델이 LRM의 오류를 잡아내는 경우도 있었으며, 이는 다중 모델 앙상블이 단일 모델보다 더 견고한 판단을 제공할 가능성을 보여준다.
위협 요인으로는 (1) ADR 템플릿이 제한적이어서 비표준 형식의 기록을 다루지 못함, (2) 코드 베이스가 최신 상태가 아니거나 테스트 커버리지가 낮아 실제 위반 여부를 판단하기 어려운 점, (3) LLM이 최신 라이브러리 버전이나 보안 패치를 인식하지 못할 가능성 등이 제시되었다.
결론적으로, 이 논문은 LLM이 “코드 기반” 건축 의사결정 위반을 자동 탐지하는 데 높은 효용을 보이며, 다중 모델 검증 구조가 신뢰성을 크게 향상시킨다는 실증적 근거를 제공한다. 그러나 비코드 영역의 의사결정이나 조직적 맥락을 포함하는 경우에는 인간 전문가와의 협업이 여전히 필요함을 강조한다. 향후 연구는 (a) 외부 시스템 메타데이터를 LLM 입력에 통합, (b) 미세 조정(fine‑tuning) 및 프롬프트 최적화를 통한 도메인 특화 성능 향상, (c) 정적 분석 도구와의 하이브리드 프레임워크 구축 등을 통해 현재 한계를 보완할 수 있을 것으로 기대한다.
댓글 및 학술 토론
Loading comments...
의견 남기기