도덕적 판단을 위한 해석 가능한 트랜스포머 모델
초록
본 논문은 트롤리형 도덕 딜레마를 구조화된 입력으로 변환하고, 2계층·64차원 트랜스포머를 학습시켜 77% 정확도를 달성한다. 캐릭터 유형·인원수·팀 정보를 임베딩에 포함시켜 도덕적 판단을 단계별로 분해하고, 인과 개입, 층별 편향 분석, 회로 탐색 등 다양한 메커니즘 해석 기법으로 모델 내부에서 편향이 어떻게 형성되는지 규명한다.
상세 분석
이 연구는 도덕적 의사결정 문제를 “누가(캐릭터 유형)”, “얼마나(인원수)”, “어느 쪽에(팀)”이라는 세 축으로 명시적으로 표현한 뒤, 각 축을 전용 임베딩 파트에 할당하는 독창적인 입력 설계가 핵심이다. 전체 임베딩 차원 d=64를 캐릭터(d_char=32), 인원수(d_card=16), 팀(d_team=16)으로 나누어, 모델이 각 요소를 별도 차원에서 학습하도록 유도한다. 이는 도덕 판단이 단순 유틸리티 계산이 아니라, 이해관계자 식별·수량화·대립 해결이라는 가설을 구조적으로 반영한다는 점에서 의미가 크다.
아키텍처는 L=2, H=2인 얕은 트랜스포머 인코더와 CLS 토큰 기반 분류 헤드를 사용한다. 포지션 임베딩을 배제하고 팀 임베딩을 통해 두 결과군을 구분함으로써, 자기‑어텐션이 결과 간 비교를 수행하도록 설계했다. 또한 추론 단계에서 양쪽 순서를 모두 평가해 평균을 취하는 대칭화 절차를 도입해 입력 순서에 따른 확률 편차를 제거하고, “팀‑불변성”을 보장한다.
성능 측면에서 5.4M 고유 시나리오 중 1.7M를 검증에 사용했으며, d=64, H=2, L=2 구성에서 77.1% 정확도를 기록한다. 파라미터 수는 104K로 매우 경량화돼, 메커니즘 해석에 적합하다.
해석 실험은 세 단계로 진행된다. 첫째, DoWhy 프레임워크를 활용해 각 캐릭터의 평균 처리 효과(ATE)를 추정했으며, 임신한 여성·유모차 등은 +0.12~+0.11의 긍정적 효과를, 범죄자·노인·고양이 등은 -0.10~ -0.04의 부정적 효과를 보였다. 이는 모델이 인간 데이터에서 학습한 도덕적 위계(‘생명 가치’ 계층)를 그대로 반영한다는 증거다.
둘째, 층‑별 어텐션 가중치와 편향 점수 간의 분산·상관 곱(I_ℓ,h)을 계산해 편향이 어느 층·헤드에 집중되는지 파악했다. 법률 편향은 0층에, 종(species) 편향은 1층에 주로 나타났으며, 성별·연령·사회적 역할 편향은 두 층에 고르게 분포하지만 서로 다른 헤드에 특화돼 있다. 이는 얕은 네트워크라도 초기 단계에서 속성 인식, 후속 단계에서 교차 비교가 이루어짐을 시사한다.
셋째, 회로 탐색(circuit probing)으로 CLS 토큰을 업데이트하는 MLP 블록 내 256개 뉴런 중 45개(≈18%)만을 선택해 높은 KNN 정확도(0.956)와 실험적 인과 효과(전체 성능 향상의 8.3%)를 달성했다. 해당 서브네트워크를 제거하면 모델‑스코어 일치도가 1.2%p 감소한다. 이는 도덕 점수 계산이 매우 희소한 뉴런 집합에 의해 구현된다는 강력한 증거다.
전반적으로 이 논문은 “도덕 판단 = 이해관계자 식별 → 수량화 → 비교”라는 가설을 모델 구조와 해석 기법을 통해 실증한다. 작은 규모에도 불구하고 의미 있는 편향을 발견하고, 그 위치와 원인을 구체적으로 규명함으로써, 향후 윤리적 AI 시스템에 대한 정밀한 디버깅·조정 전략을 제시한다. 다만, 데이터 자체가 문화적 편향을 내포하고 있어 모델이 이를 그대로 학습한다는 한계는 명시적으로 인정하고 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기