강화학습으로 LLM을 훈련시켜 인간 선택을 설명한다

강화학습으로 LLM을 훈련시켜 인간 선택을 설명한다
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전학습된 대형 언어모델(LLM)을 위험 선택 과제에 적용하고, 강화학습(RL) 기반 보상 설계를 통해 모델이 인간의 선택 비율을 예측함과 동시에 자연어 형태의 사고 흐름(Chain‑of‑Thought, CoT)을 생성하도록 한다. SFT와 Centaur‑style SFT와 비교했을 때, RL 방식은 예측 정확도와 설명 품질 모두에서 경쟁력을 보이며, 백본 모델의 규모가 클수록 CoT의 질이 향상됨을 확인하였다.

상세 분석

이 연구는 인지 모델링에서 “예측”과 “설명”이라는 두 축을 동시에 만족시키려는 시도로, 기존 신경망 기반 모델이 높은 예측 성능을 보이지만 내부 메커니즘을 해석하기 어려운 한계를 극복하고자 한다. 저자들은 위험 선택(task) 데이터를 자연어 형태로 변환하고, 이를 Qwen‑2.5‑7B‑Instruct라는 7 B 파라미터 규모의 LLM에 LoRA(저‑랭크 적응) 모듈을 적용해 파라미터 효율적인 파인튜닝을 수행한다. 세 가지 포스트‑트레이닝 전략을 비교한다. 첫 번째는 전통적인 SFT로, 입력‑출력 쌍을 그대로 학습한다. 두 번째는 Centaur‑style SFT로, 인간 선택 비율을 특수 토큰(« ») 안에 넣어 해당 토큰만 손실에 포함시키는 방식이다. 세 번째가 핵심인 RL 방식으로, Group Relative Policy Optimization(GRPO) 알고리즘을 사용한다. 여기서 모델은 하나의 문제에 대해 12개의 후보 완성을 생성하고, 각 완성의 행동 예측값(옵션 A, B의 확률)과 실제 인간 데이터 간 차이를 기반으로 1‑|o_B‑p_B| 형태의 결과 보상을 부여한다. 보상은 예측 정확도 외에도 JSON 형식의 출력 위치·수에 따라 최대 0.5점의 형식 보상을 추가해, 모델이 CoT를 먼저 기술하고 그 뒤에 예측값을 제시하도록 유도한다. 정책 업데이트는 PPO‑style 클리핑(


댓글 및 학술 토론

Loading comments...

의견 남기기