LLM의 가치와 설명불가능성은 동일한 영역

이 논문은 “LLM의 진정한 가치가 인간이 명시적으로 규정할 수 없는 부분에 존재한다”는 역설적 명제를 제시한다. 서론에서는 변압기 구조와 학습 메커니즘은 모두 이해 가능하지만, 모델이 ‘이해’를 어떻게 구현하는지는 설명하기 어렵다는 ‘윌리엄스 형제와 747’ 비유를 든다. 이때문에 ‘전체가 부분들의 합보다 크다’는 전통적 ‘emergence’ 설명이 충분치 않으며, 설명 가능한 부분과 가치 있는 부분이 동일하다는 핵심 가설을 제시한다. 핵심 논증은 ‘모순에 의한 증명’이다. 전제 1) LLM을 완전히 설명한다는 것은 모든 입력‑출력 관계를 인간이 읽을 수 있는 규칙 집합으로 기술한다는 뜻이다. 전제 2) 그러한 규칙 집합은 전통적인 전문가 시스템과 기능적으로 동등하다. 전제 3) 역사적·실험적 증거는 전문가 시스템이 LLM보다 성능이 낮다는 것이다. 따라서 전제 1과 전제 3은 모순이며, 완전한 규칙 집합은 존재하지 않는다. 즉, 설명 가능한 부분은 전문가 시스템이 구현할 수 있는 얕은 능력에 불과하고, LLM이 제공하는 고차원적·연속적 능력이 바로 설명 불가능한, 따라서 가치 있는 부분이다. 다음으로 세 가지 대안적 설명 경로(LLM 자체 설명, 더 큰 시스템이 설명, 인간‑LLM 협업)를 검토한다. Gödel의 불완전성 정리와 PAC 학습 이론을 인용해 자기참조적 설명이 논리적으로 불가능함을 밝히고, 더 큰 시스템을 도입하면 무한 회귀가 발생한다는 점을 강조한다. 기존 연구와의 차별점도 논의한다. Wolfram의 계산적 불가축소성은 ‘이해를 제한하면 강력한 과정에 접근 못한다’는 직관을 제공하지만, 전문가 시스템 동등성을 이용한 논증은 아니다. 알고리즘 정보 이론 기반 “Complexity Gap Theorem”은 설명 가능성과 성능 사이에 트레이드오프를 제시하지만, 여기서는 ‘가치 있는 부분이 바로 설명 불가능한 부분’이라는 보다 강력한 결론을 내린다. 역사적 증거로 1980년대 전문가 시스템의 부상과 몰락을 상세히 서술한다. 전문가 시스템은 지식공학을 통해 도메인 전문가의 지식을 IF‑THEN 규칙으로 명시하려 했지만, 인간 전문가가 보유한 연속적·고차원적 직관을 포착하지 못했다. Polanyi의 “우리는 말할 수 있는 것보다 더 많이 안다”는 명제는 여기서 실증된다. LLM은 이러한 암묵적 지식을 파라미터라는 연속적 매개체에 저장함으로써, 규칙 기반 접근법을 뛰어넘는다. 중국 전통 철학 ‘悟(오)’와 조선의 ‘Cook Ding’ 이야기를 통해, 규칙으로 전이할 수 없는 지식이 실천과 내면화 과정을 통해 획득된다는 점을 강조한다. Cook Ding이 도축 과정에서 손목 각도, 힘, 뼈 간격 등을 연속적으로 조절하는 모습은 고차원 연속 매니폴드 형태의 지식이다. 이와 LLM 학습 과정을 구조적으로 매핑한다: 대량 텍스트 사전학습 → 실험적 피드백 → 손실 감소와 파라미터 업데이트 → 갑작스러운 성능 도약(phase transition). 이 단계 이후 모델은 규칙이 아닌 ‘감각적 직관’으로 작동한다. ‘표현 불일치(Representation Mismatch)’ 개념을 도입해 인간 인지 도구(언어, 논리)는 이산적이며 압축을 위해 정보를 손실한다는 점을 강조한다. Cilliers와 Sterman의 복잡계 이론을 인용해, 복잡계의 모든 측면을 이산적 모델로 포착할 수 없음을 설명한다. 반면 LLM과 생물학적 신경망은 수십억 파라미터가 연속적으로 상호 결합된 동적 시스템이며, 이산적 규칙으로는 핵심 정보를 보존할 수 없다. 이는 마치 모자이크 타일로 유화 전체를 재현하려는 시도와 같다. 이러한 인식은 언어 모델에 국한되지 않는다. 로봇 조작, 임베디드 인텔리전스 등 고차원 연속 제어 문제에서도 규칙 기반 접근은 한계에 부딪히며, 강화학습·모방학습과 같은 연속적 파라미터 최적화가 성공한다. 따라서 논문의 핵심 명제는 “가치 있는 능력은 규칙으로 포착할 수 없는 연속적 결합 구조에 있다”는 일반 원칙으로 확장된다. 마지막으로 해석 가능성 연구에 대한 정책적·학술적 함의를 제시한다. 해석 가능성은 ‘위험한 블라인드 스팟’을 최소화하고, 국소적 인과관계를 밝히는 데 집중해야 하며, 완전한 설명을 목표로 하는 것은 비현실적이다. 이는 AI 안전, 과학적 인식론, 그리고 인간‑기계 협업 설계에 중요한 지침을 제공한다.

LLM의 가치와 설명불가능성은 동일한 영역

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기