가용성 휴리스틱이 다지선다형 시험에서 정답을 예측하는 비밀 무기
초록
본 연구는 위키피디아와 BEIR 같은 대규모 텍스트 코퍼스를 활용해 각 선택지의 “가용성”(출현 빈도)을 정량화하고, 정답이 오답보다 높은 가용성을 보이는지를 검증한다. 위키피디아 기반에서는 가장 가용성이 높은 선택지를 고르면 무작위 추측 대비 13.5%~32.9% 높은 점수를 얻으며, LLM이 만든 선택지 역시 인간 전문가가 만든 선택지와 유사한 가용성 패턴을 보인다.
상세 분석
이 논문은 가용성 휴리스틱(Availability Heuristic)을 다지선다형 문제(MCQ)에서의 시험 전략으로 정량화하려는 최초 시도 중 하나이다. 저자는 “가용성”을 선택지에 포함된 개념이 대규모 코퍼스에 얼마나 자주 등장하는가로 정의하고, 이를 측정하기 위해 두 단계의 정보 검색 파이프라인을 설계하였다. 첫 단계에서는 옵션 전체(예: “Paris Tallinn Antananarivo”)를 하나의 쿼리로 사용해 코퍼스에서 20~60개의 관련 문단을 임베딩 기반 검색(Cohere Embed v3)으로 추출한다. 두 번째 단계에서는 각 문단을 옵션별 임베딩과 코사인 유사도로 매칭시켜, 해당 문단이 어느 옵션에 가장 가깝게 연관되는지를 판단한다. 이렇게 할당된 문단 수의 비율이 바로 옵션별 가용성 점수이다.
연구에 사용된 코퍼스는 (1) 위키피디아(41.5 M 문단)와 (2) BEIR(48 M 문단)이다. 위키피디아는 사실·과학 정보가 풍부한 반면, BEIR은 뉴스·포럼·재무 등 다양한 도메인을 포함한다. 두 코퍼스 간 차이를 비교함으로써 가용성 효과가 일반 상식 수준인지, 혹은 전문 지식 수준인지 탐색한다.
실험 데이터는 (①) 생물심리학(3‑옵션 396개, 4‑옵션 380개), (②) 면역약리학(4‑옵션 639개), (③) 공개 SciQ(4‑옵션 1000개)이며, 전자는 학생 선택 비율이 제공돼 가용성 높은 오답이 실제로 더 많이 선택되는지를 검증할 수 있다. 통계 분석은 Friedman 검정 후 Wilcoxon 사후 검정으로 수행했으며, 효과 크기는 매치드‑페어 순위‑바이시얼 상관계수(rbc)로 보고, Holm‑Bonferroni로 다중 비교를 보정하였다.
주요 결과는 다음과 같다. 위키피디아를 사용했을 때 정답 옵션은 모든 데이터셋에서 오답보다 유의하게 높은 가용성을 보였으며, 효과 크기는 중~대(ES≈0.4‑0.6) 수준이었다. 반면 BEIR에서는 차이가 미미하거나 오히려 반대 방향(특히 SciQ)으로 나타났다. 이는 위키피디아가 학문·일반 상식에 특화된 코퍼스이기 때문에 가용성 휴리스틱이 실제 시험 상황에 적용 가능함을 시사한다.
두 번째 연구 질문(RQ2)인 “가용성이 높은 오답이 학생에게 더 많이 선택되는가?”에 대해서는 통계적으로 유의한 차이를 찾지 못했다. 즉, 가용성 자체가 학생의 오답 선택을 설명하는 주요 요인은 아니라는 결론이다.
세 번째 연구 질문(RQ3)에서는 인간 전문가가 만든 오답, LLM(Qwen‑3 8B/30B/80B)으로 생성한 오답, 그리고 크라우드소싱된 오답을 비교했다. LLM이 만든 오답은 인간이 만든 오답과 가용성 분포가 거의 동일했으며, 크라우드소싱 오답은 전반적으로 가용성이 낮았다. 이는 LLM이 대규모 텍스트 학습을 통해 인간과 유사한 “노출 빈도”를 내재하고 있음을 보여준다.
또한, 옵션 순서를 “학생 선택률에 따라 내림차순”으로 정렬했을 때(생물심리학·면역약리학)와 무작위 순서( SciQ) 사이에 가용성 차이가 거의 없었으며, 이는 가용성 측정이 옵션 순서에 크게 좌우되지 않음을 의미한다.
전체적으로 이 논문은 (1) 가용성 휴리스틱을 정량화하는 새로운 방법론을 제시하고, (2) 실제 시험 데이터에서 정답이 높은 가용성을 가진다는 경험적 증거를 제공하며, (3) LLM이 만든 오답이 인간 수준의 가용성 특성을 갖는다는 흥미로운 부수 결과를 도출한다. 이러한 발견은 교육 기술, 자동 시험 채점, 그리고 시험 설계 시 “시험‑현명함” 전략을 모델링하는 데 중요한 시사점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기