LLM의 숨은 설계력: 운율과 답변을 통한 암묵적 플래닝 측정

LLM의 숨은 설계력: 운율과 답변을 통한 암묵적 플래닝 측정
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 언어 모델이 다음 토큰을 예측하면서도 미래 목표 토큰(예: 운율 단어, 정답)을 위한 암묵적 계획을 세운다는 가설을 검증한다. 저자는 복잡한 교차‑계층 트랜스코더 대신 평균 활성화 차이를 이용한 간단한 “활성화 스티어링” 기법을 제안하고, 운율 시와 질문‑답변 두 작업에 대해 23개의 1B‑32B 파라미터 모델을 실험한다. 전·후방 플래닝을 정량화하는 지표를 정의하고, 스티어링이 목표 단어를 성공적으로 유도함을 보이며, 작은 모델에서도 플래닝이 존재함을 입증한다.

상세 분석

이 연구는 “암묵적 플래닝(implicit planning)”이라는 개념을 체계화한다. 먼저 목표 토큰(예: 라임 패밀리, 정답 명사)을 미리 예측하고, 그 정보를 초기 토큰의 은닉 상태에 내재시켜 이후 토큰 생성에 영향을 미치는 두 단계, 전방 플래닝(forward planning)과 후방 플래닝(backward planning)을 정의한다. 전방 플래닝은 목표 토큰에 대한 표현이 앞선 위치에 나타나는 현상을, 후방 플래닝은 그 표현이 중간 토큰 선택을 조정하는 과정을 의미한다.

논문은 기존 연구가 제시한 복잡한 교차‑계층 트랜스코더(CLT) 방식 대신, 특정 위치(줄바꿈 토큰, 마지막 단어, 물음표 등)의 평균 활성화 차이를 이용해 스티어링 벡터를 추정한다. 이 벡터는 두 카테고리(예: “‑ight” 라임 vs “‑ing” 라임) 사이의 평균 활성화 차이를 1.5~2배 확대한 형태이며, 선택된 레이어와 토큰 위치에 더해짐으로써 모델의 내부 플래닝 표현을 직접 조작한다.

평가 데이터는 두 가지 도메인으로 구성된다. 운율 실험에서는 10개의 라임 패밀리를 각각 105개의 첫 줄을 생성해 훈련·시험 셋을 만들고, 질문‑답변 실험에서는 20개의 명사 쌍(모음 시작 vs 자음 시작)과 각각 13개의 질문(훈련)·5개의 질문(시험)을 준비했다. 모델군은 Gemma2/3, Qwen3, Llama3.1/3.2 등 23개의 오픈‑소스 모델을 포함하며, 베이스와 인스트럭션‑튜닝 버전을 모두 테스트한다.

핵심 지표는 다음과 같다. (1) 정확한 라임 패밀리 비율(Fraction of Correct Rhyme Family) – 스티어링 전후의 라임 일치 정도를 측정한다. (2) 정확한 라임 패밀리 비율(스티어링 적용) – 목표 라임으로 성공적으로 전환됐는지를 평가한다. (3) 마지막 단어 재생성 정확도(Fraction of Correct Last Word Regeneration) – 중간 토큰을 제거하고 재생성했을 때 목표 라임이 재현되는 비율을 측정한다. 질문‑답변에서는 라임 대신 정답 명사의 재현률을 동일한 방식으로 계산한다.

실험 결과는 두드러진 일관성을 보인다. 대부분의 모델에서 스티어링 벡터를 적용하면 목표 라임 혹은 정답 명사로의 전환율이 크게 상승한다. 특히 1B 파라미터 모델조차도 평균 1520% 수준의 플래닝 효과를 보였으며, 7B 이상 모델에서는 60% 이상으로 향상된다. 후방 플래닝 측정에서도, 스티어링이 적용된 경우 중간 토큰 선택이 목표 라임에 맞춰 더 자연스럽게 변형되는 것이 확인되었다(예: “light” 대신 “bright” 등). 레이어 분석에서는 중간‑상위 레이어(812)에서 플래닝 신호가 가장 강하게 나타났으며, 이는 인간의 언어 처리에서 의미‑구조가 형성되는 시점과 유사한 패턴이다.

또한, 스티어링 벡터의 추정 방법이 단순함에도 불구하고, 복잡한 CLT 기반 방법과 비교해 비슷하거나 더 높은 성공률을 기록했다. 이는 플래닝 신호가 모델 내부에 비교적 선형적인 형태로 존재한다는 암시이며, 향후 더 정교한 제어 기법(예: SAE 기반 방향성 조정)과 결합하면 더욱 정밀한 조작이 가능할 것으로 보인다.

한계점으로는 (1) 스티어링 효과가 토큰 수준에서만 적용돼 긴 문맥이나 다중 목표 플래닝에는 아직 검증되지 않음, (2) 라임 패밀리와 명사 쌍이라는 제한된 도메인에만 적용돼 일반적인 추론 플래닝으로 확장 가능성은 추가 연구가 필요, (3) 스티어링 벡터의 규모(m=1.5~2)를 경험적으로 조정해야 하는 점이 자동화에 장애가 될 수 있다. 그럼에도 불구하고, 본 논문은 암묵적 플래닝을 정량화하고 조작할 수 있는 실용적인 프레임워크를 제공함으로써, LLM 안전·제어 연구에 중요한 도구를 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기