AI 모델 선택을 위한 증거 기반 의사결정 지원 프레임워크

초록

본 논문은 연구 소프트웨어 엔지니어가 AI 모델을 선택할 때 겪는 비체계적·주관적 문제를 해결하고자, 모델 선택을 다중 기준 의사결정(MCDM) 문제로 정의한다. 자동화된 메타데이터 수집 파이프라인과 지식 그래프를 결합한 ‘ModelSelect’ 프레임워크를 설계·구현하고, 50개의 실제 사례와 생성형 AI와의 비교 실험을 통해 재현성·투명성을 높인 추천 결과를 입증한다.

상세 요약

이 연구는 AI 모델 선택을 전통적인 경험 기반 접근법에서 벗어나, 체계적이고 증거 중심적인 의사결정 과정으로 전환한다는 점에서 학술적·실무적 의미가 크다. 우선 저자들은 모델 선택을 ‘다중 기준 의사결정(Multi‑Criteria Decision‑Making, MCDM)’ 문제로 공식화한다. 여기서 기준은 성능(metric), 데이터 요구량, 라이선스, 실행 환경, 유지보수 비용 등 기술적 요소와 연구 목적, 도메인 규제, 팀 역량 등 맥락적 요소로 구분된다. 이러한 기준을 정량·정성적으로 평가하기 위해 자동화된 메타데이터 수집 파이프라인을 구축했으며, 이는 공개 레포지터리(GitHub, PyPI), 논문 인용 데이터베이스, 벤치마크 사이트 등을 크롤링해 모델·라이브러리의 특성을 구조화된 형태로 저장한다.

수집된 메타데이터는 RDF 기반의 지식 그래프에 통합된다. 그래프는 ‘모델‑특성‑관계’를 삼중항(triple) 형태로 표현함으로써, 복잡한 상호 의존성을 질의 언어(SPARQL)로 손쉽게 탐색할 수 있게 한다. 특히, 그래프는 시간에 따라 업데이트되는 ‘증거 흐름(evidence stream)’을 지원해 최신 벤치마크 결과나 커뮤니티 피드백을 실시간 반영한다.

MCDM 단계에서는 AHP(Analytic Hierarchy Process)와 TOPSIS 같은 계층적 가중치 부여 및 거리 기반 순위 매김 기법을 적용한다. 연구자는 전문가 설문을 통해 기준 가중치를 도출하고, 이를 지식 그래프에서 추출한 정량적 점수와 정성적 평가(예: 라이선스 호환성)와 결합한다. 결과적으로 각 후보 모델에 대한 종합 점수가 산출되고, 이 점수와 함께 ‘왜 이 모델이 선택되었는가’에 대한 근거(증거 경로)가 그래프 상에서 추적 가능하도록 설계되었다.

실증 검증은 두 축으로 진행된다. 첫 번째는 50개의 실제 연구 워크플로우(데이터 과학, 생물정보학, 물리 시뮬레이션 등)에서 ModelSelect가 제시한 모델·라이브러리 추천이 전문가가 직접 선택한 결과와 얼마나 일치하는지를 평가한 것이다. 여기서 ‘커버리지(추천 가능한 후보 수)’와 ‘합리성 정렬(rationale alignment)’이라는 두 메트릭을 사용했으며, 평균 커버리지는 92%, 합리성 정렬은 0.87의 높은 상관계수를 보였다. 두 번째는 ChatGPT, Claude 등 최신 생성형 AI 어시스턴트와의 비교 실험이다. ModelSelect는 동일한 질의에 대해 평균 0.91의 정확도와 0.94의 일관성을 기록했으며, 특히 ‘추론 근거 제공(traceability)’에서 1.0에 가까운 점수를 얻어 설명 가능성 측면에서 우위를 입증했다.

이러한 결과는 모델 선택 과정에서 발생하는 ‘블랙박스’ 문제를 크게 완화한다는 점에서 의의가 크다. 자동화된 증거 수집·그래프화, 그리고 MCDM 기반의 가중치 조정은 사용자가 필요에 따라 기준을 재구성하거나 새로운 증거를 추가할 수 있게 함으로써, 프레임워크의 확장성과 지속 가능성을 확보한다. 또한, 디자인 사이언스 리서치(Design Science Research) 방법론을 따른 체계적인 설계·평가 과정은 연구 소프트웨어 공학 분야에서 재현 가능한 연구 방법론을 제시한다는 점에서도 주목할 만하다.

초록

상세 요약

📜 논문 원문 (영문)