LLM을 활용한 체계적 매핑 연구 자동화 경험 보고
초록
본 논문은 대형 언어 모델(LLM)을 이용해 체계적 매핑 연구(SMS)의 전 과정을 지원한 실험적 경험을 보고한다. 연구자는 기존 수작업 방식과 ChatGPT‑4 기반 자동화 방식을 비교하여, 스크리닝 단계에서 98 % 시간 절감, 데이터 추출 단계에서 99 % 시간 절감을 달성했으며, 각각 95 %와 92 %의 정확도를 기록했다. 그러나 프롬프트 설계에 많은 반복 작업이 필요하고, 모델의 환각 현상 및 버전 간 일관성 문제로 인간 검증이 필수적이었다. 추가 실험에서는 Gemini PRO, Manus, Copilot 등 다른 모델들의 과제별 성능 차이를 확인하였다. 연구는 LLM 활용 시 효율성 향상 가능성을 제시하면서도, 프롬프트 엔지니어링 비용, 오류 검증 필요성, 모델 선택의 과제 의존성 등을 경고한다.
상세 분석
이 논문은 체계적 매핑 연구라는 복합적인 증거 종합 절차에 LLM을 적용한 최초 사례 중 하나로, 전통적인 수작업 흐름과 LLM 지원 흐름을 동일한 데이터셋(219개의 논문 스크리닝, 13개의 논문 데이터 추출)으로 직접 비교하였다.
첫째, 프로토콜 설계 단계에서 Kitchenham‑Charters와 Wohlin 가이드라인을 그대로 적용해 연구 질문, 검색 데이터베이스, 포함·제외 기준을 정의함으로써, LLM 사용 전후의 방법론적 일관성을 확보하였다. 이는 LLM이 연구 설계 자체를 바꾸는 것이 아니라, 실행 단계에서 보조 역할을 수행한다는 점을 강조한다.
둘째, 스크리닝 단계에서는 ChatGPT‑4에 포함·제외 기준을 명시한 프롬프트를 제공했으며, 모델이 반환한 결과를 인간 리뷰어가 교차 검증하였다. 결과적으로 219건 중 208건을 정확히 판정해 95 %의 일치율을 보였지만, 11건에서는 다른 논문의 정보를 끌어와 ‘환각’(hallucination) 현상이 발생했다. 이는 LLM이 텍스트 생성 과정에서 외부 지식을 무작위로 삽입할 위험이 있음을 시사한다.
셋째, 데이터 추출 단계에서는 사전 정의된 질문형 템플릿을 이용해 각 논문의 메타데이터와 연구 결과를 자동으로 요약하도록 했다. 13건 중 12건을 정확히 추출해 92 % 정확도를 달성했지만, 한 건에서 핵심 변수 누락이 발견되었다. 여기서도 인간 검증이 필수적이었다.
넷째, 시간 효율성 측면에서 수작업은 스크리닝에 약 23일, 추출에 7일이 소요된 반면, LLM 지원은 각각 9시간, 1시간으로 급감했다. 단, 프롬프트 설계와 반복 테스트에 소요된 시간은 보고서에 포함되지 않았으며, 실제 프로젝트에서는 이 부분이 전체 절감 효과를 일부 상쇄할 수 있다.
다섯째, 모델 다양성 실험에서는 Manus가 스크리닝에서 98 % 정확도를 보였고, Gemini PRO가 데이터 추출에서 90 % 정확도를 기록했다. Copilot은 두 단계 모두 낮은 성능을 보이며, LLM 선택이 과제 특성에 따라 달라야 함을 입증한다.
여섯째, 논문은 주요 위험 요소로 (1) 프롬프트 엔지니어링 비용, (2) 환각 및 일관성 결함, (3) 인간 검증 필요성을 제시한다. 특히, 모델 버전 교체 시 동일 프롬프트가 다른 결과를 초래할 수 있어 재현성 확보가 어려워진다.
마지막으로, 저자들은 LLM 활용 시 “인간‑기계 협업” 모델을 권고한다. 초기 프롬프트 설계와 검증을 전문가가 담당하고, 자동화된 결과는 이중 검토를 통해 오류를 최소화하는 것이 최적의 접근법이다. 이러한 교훈은 향후 소프트웨어 공학 분야뿐 아니라 다양한 학문 영역의 체계적 리뷰에 적용 가능하다.
댓글 및 학술 토론
Loading comments...
의견 남기기