연구비 제안 자동 심사, 기억력과 위험 관리의 교훈
초록
본 연구는 인도 국가 연구비 프로그램의 959개 제안을 대상으로, 도메인 키워드 기반 TF‑IDF 규칙 모델과 대형 언어 모델(LLM) 기반 의미 분류 모델을 비교한다. 선정 위원회의 결정을 기준으로 평가했을 때, TF‑IDF 모델이 정확도·정밀도·재현율·F1 모두에서 우수했으며 특히 재현율(78.95 % vs 45.82 %)과 거짓 부정 수(68 vs 175)에서 큰 차이를 보였다. 논문은 오류 비대칭(거짓 부정이 거짓 양성보다 훨씬 비용이 크다)을 강조하며, 초기 스크리닝 단계에서는 높은 재현율과 투명·감시 가능성이 핵심이라고 주장한다.
상세 분석
이 논문은 초기 제안 스크리닝을 ‘안전망’으로 정의하고, 오류 비용의 비대칭성을 분석 프레임으로 삼는다. 연구자는 959건의 제안을 대상으로 두 가지 자동화 접근법을 구현하였다. 첫 번째는 도메인 전문가가 수작업으로 만든 키워드 리스트를 TF‑IDF 가중치와 결합한 규칙 기반 모델이다. 텍스트 전처리(소문자 변환, 구두점 제거, 불용어 제거) 후 키워드 매칭 여부로 제안을 ‘선정’ 혹은 ‘배제’한다. 두 번째는 최신 LLM을 프롬프트 기반으로 활용해 제안 목표와 사전 정의된 주제 카테고리의 일치 여부를 판단하도록 설계했으며, 명시적 배제 구문이 포함된 경우 강제 배제 규칙을 적용하였다.
평가 지표는 정확도, 정밀도, 재현율, F1 점수이며, 특히 재현율에 가중치를 두었다. TF‑IDF 모델은 재현율 78.95 %와 거짓 부정 68건을 기록했으며, LLM은 재현율 45.82 %와 거짓 부정 175건을 보였다. 즉, LLM은 선정 위원회가 최종적으로 채택한 제안의 절반 이상을 초기 단계에서 누락했다. 반면 거짓 양성은 LLM이 약간 적게(96 vs 115) 생성했지만, 이는 후속 피어 리뷰 단계에서 쉽게 정정 가능하다.
논문은 이러한 결과를 ‘제한된 합리성(bounded rationality)’ 이론과 연결한다. 초기 스크리닝은 정보·시간·인지 자원이 제한된 상황에서 ‘재앙적 오류’를 최소화하는 것이 목표이며, 따라서 높은 재현율과 오류 투명성이 필수다. 규칙 기반 TF‑IDF 모델은 키워드 설계와 가중치 조정이 가능해 오류 원인을 추적하고 감시할 수 있는 장점을 제공한다. 반면 LLM은 블랙박스 특성으로 인해 오류 원인 파악이 어려우며, 보수적 배제 정책이 거짓 부정을 급증시킨다.
거버넌스 관점에서 저자는 자동화 도구 도입 시 ‘오류 비용 매트릭스’를 사전 정의하고, 정책 입안자가 허용 가능한 오류 유형(주로 거짓 양성)과 허용 한계(거짓 부정 최소화)를 명확히 해야 한다고 제언한다. 또한, 투명성·감시 가능성·인간‑AI 협업 설계가 없을 경우, 자동화가 오히려 평가 공정성을 해칠 위험이 있음을 경고한다.
댓글 및 학술 토론
Loading comments...
의견 남기기