복합질문 평가를 위한 새로운 벤치마크 Compound‑QA 소개
초록
본 논문은 기존 QA 벤치마크가 단일 질문에만 초점을 맞춘 한계를 극복하고자, 여러 하위 질문이 얽힌 복합질문을 대상으로 하는 Compound‑QA 벤치마크를 제안한다. CQ‑Syn이라는 데이터 합성 파이프라인을 통해 5가지 논리 유형(Factual‑Statement, Cause‑and‑Effect, Hypothetical‑Analysis, Comparison‑and‑Selection, Evaluation‑and‑Suggestion)으로 구성된 1,500개의 복합질문을 생성하고, 인간 검증을 거쳐 품질을 확보하였다. 9개의 오픈소스 LLM을 평가한 결과, 복합질문에 대한 성능이 단일 질문 대비 현저히 낮으며, 모델 규모와 사후 미세조정이 성능 향상에 크게 기여함을 확인했다.
상세 분석
본 연구는 “복합질문”(Compound Question)이라는 새로운 문제 정의를 제시한다. 복합질문은 하나의 발화 안에 두 개 이상 상호 연관된 하위 질문을 포함하며, 인간은 이를 자연스럽게 분해·응답하지만 LLM은 하위 질문 식별, 논리적 의존성 파악, 그리고 문맥 간 간섭(ellipsis, anaphora) 등에서 어려움을 겪는다. 논문은 이러한 특성을 정량화하기 위해 다섯 가지 유형을 설계했는데, 각각은 질문 간 상관관계와 요구되는 추론 수준이 다르다.
- Factual‑Statement (FS): 독립적인 사실을 나열하듯 질문이 제시되어, 하위 질문 간 상관관계가 거의 없으며 주로 정보 검색 능력을 평가한다.
- Cause‑and‑Effect (CE): 원인·결과 관계를 파악하도록 요구, 원인 식별 후 영향을 설명하는 2단계 추론을 필요로 한다.
- Hypothetical‑Analysis (HA): 가상 시나리오를 제시하고, 그에 대한 잠재적 결과를 다각도로 분석한다. 여기서는 가정 전제와 조건부 추론이 핵심이다.
- Comparison‑and‑Selection (CS): 두 개 이상의 대상을 비교·대조하고, 특정 기준에 따라 선택을 제시한다. 복합적인 비교 기준과 선택 논리를 동시에 다루어야 한다.
- Evaluation‑and‑Suggestion (ES): 대상에 대한 평가(강점·약점·메커니즘)와 개선 방안을 제시하도록 요구, 평가와 제안이라는 두 단계가 연속적으로 연결된다.
데이터 구축 과정인 CQ‑Syn은 세 단계로 구성된다. (1) Question Design 단계에서는 각 유형별 프롬프트를 설계하고, 원본 질문·컨텍스트를 포함해 LLM에게 복합질문을 생성하도록 유도한다. (2) Question Verification 단계에서는 키워드 기반 필터와 LLM 기반 검증을 병행해 형식·내용 오류를 제거한다. (3) Reference Generation 단계에서는 사유 LLM을 활용해 정답(레퍼런스) 을 생성하고, 인간 검증자를 통해 최종 품질을 확보한다. 이 과정에서 인간 검증자는 3명의 석사 수준 검증자를 두고, 전원 동의 시에만 데이터를 채택함으로써 높은 정확성을 보장한다.
실험에서는 DeepSeek‑7B, Mistral‑7B, LLaMA‑8B, Gemma‑2‑9B, GLM‑4‑9B, InternLM‑7B, Qwen2.5‑7B, Gemma‑3‑27B, Qwen‑3‑32B 등 총 9개의 오픈소스 모델을 평가하였다. 평가 지표는 Comprehensiveness(모든 하위 질문을 누락 없이 답변), Correctness(사실·논리 정확도), Diversity(다양한 해결 전략) 세 축을 자동 평가기(gpt‑4o‑mini)와 인간 평가(84% 일치)로 측정하였다. 결과는 크게 두 가지 인사이트를 제공한다. 첫째, 모델 규모가 클수록(특히 Qwen‑3) 복합질문 전반에서 높은 승률을 보이며, 특히 ES와 같은 고난이도 유형에서도 격차가 크게 줄어든다. 둘째, 대부분의 모델은 FS 유형에서 상대적으로 높은 성능을 보이지만, CE, HA, CS, ES와 같은 논리·추론이 요구되는 유형에서는 현저히 낮은 점수를 기록한다. 이는 현재 오픈소스 LLM이 단순 사실 회수는 잘 수행하지만, 복합적인 논리 흐름을 유지·통합하는 능력이 부족함을 시사한다.
또한, 복합질문과 비복합질문(다중 턴으로 분해된 질문) 간 성능 차이를 비교한 실험에서, LLaMA와 InternLM 모두 복합질문에서 답변 길이가 짧아지는 경향과 함께 정확도가 크게 감소함을 확인했다. 이는 모델이 긴 시퀀스 내에서 중간 위치의 정보를 유지하는 데 한계가 있음을 의미한다. 위치 의존성 실험에서는 하위 질문이 첫 번째 혹은 마지막에 위치할 때 성능이 가장 높고, 중간에 위치하면 성능이 떨어지는 현상이 관찰되었다. 이는 Transformer 기반 모델이 입력 시퀀스의 양쪽 끝에서 정보를 더 효과적으로 처리한다는 기존 연구와 일치한다.
마지막으로, 논문은 복합질문 전용 미세조정(instruction data에 복합질문을 추가) 전략을 제안하고, 이를 적용한 후 모델 성능이 전반적으로 10~15%p 상승함을 보고한다. 이는 복합질문 처리 능력이 데이터와 학습 목표에 크게 의존한다는 점을 강조한다.
요약하면, 본 연구는 복합질문이라는 실세계 AI 인터랙션의 핵심 문제를 정의·데이터화하고, 현재 오픈소스 LLM이 이 문제에 취약함을 실증하며, 데이터 증강 및 미세조정을 통한 개선 가능성을 제시한다. 향후 연구는 더 큰 규모의 모델, 체계적인 하위 질문 디코딩 기법, 그리고 멀티모달·툴 사용을 결합한 복합질문 해결 방안을 탐색할 여지를 남긴다.
댓글 및 학술 토론
Loading comments...
의견 남기기