언어모델 메타인지 향상을 위한 진화전략 기반 정렬
초록
본 논문은 LLM이 자신의 지식 상태를 스스로 인식하도록 측정·정렬하는 프레임워크를 제시한다. 직접 질문과 메타 질문을 쌍으로 제시해 d′₍type2₎ 메타인지 지표를 계산하고, 진화전략(Evolution Strategy)을 이용해 모델 파라미터를 미세조정하는 ESMA 방식을 도입한다. 다양한 모델과 언어, 새로운 지식에 대해 실험한 결과, ESMA가 파라미터의 극히 일부만을 변화시켜도 메타인지 능력을 크게 향상시킴을 확인하였다.
상세 분석
이 연구는 인간의 메타인지 측정법을 LLM에 적용하기 위해 ‘Direct Question(직접 질문)’과 ‘Meta Question(메타 질문)’을 동시에 제시하는 이중 프롬프트 방식을 도입한다. Direct Question은 사실적 정답을 요구하고, Meta Question은 모델이 해당 사실을 알고 있는지를 “Yes/No”로 답하도록 설계된다. 두 응답을 조합해 신호 탐지 이론의 d′₍type2₎를 계산함으로써, 모델이 정답을 맞추는 경우와 틀리는 경우에 대한 자신감(메타 응답)의 구분 능력을 정량화한다. d′₍type2₎가 0에 가까우면 메타인지가 전무함을, 1 이상이면 중간 수준, 2.5 이상이면 거의 완벽한 구분 능력을 의미한다.
ESMA는 기존의 백프로파게이션 기반 미세조정이 메타인지와 같은 비연속적 목표를 최적화하기 어려운 점을 보완한다. 진화전략은 파라미터 공간에 가우시안 노이즈를 추가해 N개의 변형 모델을 생성하고, 각 변형에 대해 ‘Joint Reward’를 부여한다. Joint Reward는 (1) Direct Question의 정답 여부 C와 (2) Meta Question의 정답 정렬 여부 A를 이용해 R(C,A)=2·
댓글 및 학술 토론
Loading comments...
의견 남기기