도덕적 판단을 위한 해석 가능한 트랜스포머 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 트롤리형 도덕 딜레마를 구조화된 입력으로 변환하고, 2계층·64차원 트랜스포머를 학습시켜 77% 정확도를 달성한다. 캐릭터 유형·인원수·팀 정보를 임베딩에 포함시켜 도덕적 판단을 단계별로 분해하고, 인과 개입, 층별 편향 분석, 회로 탐색 등 다양한 메커니즘 해석 기법으로 모델 내부에서 편향이 어떻게 형성되는지 규명한다.

상세 분석

이 연구는 도덕적 의사결정 문제를 “누가(캐릭터 유형)”, “얼마나(인원수)”, “어느 쪽에(팀)”이라는 세 축으로 명시적으로 표현한 뒤, 각 축을 전용 임베딩 파트에 할당하는 독창적인 입력 설계가 핵심이다. 전체 임베딩 차원 d=64를 캐릭터(d_char=32), 인원수(d_card=16), 팀(d_team=16)으로 나누어, 모델이 각 요소를 별도 차원에서 학습하도록 유도한다. 이는 도덕 판단이 단순 유틸리티 계산이 아니라, 이해관계자 식별·수량화·대립 해결이라는 가설을 구조적으로 반영한다는 점에서 의미가 크다.

아키텍처는 L=2, H=2인 얕은 트랜스포머 인코더와 CLS 토큰 기반 분류 헤드를 사용한다. 포지션 임베딩을 배제하고 팀 임베딩을 통해 두 결과군을 구분함으로써, 자기‑어텐션이 결과 간 비교를 수행하도록 설계했다. 또한 추론 단계에서 양쪽 순서를 모두 평가해 평균을 취하는 대칭화 절차를 도입해 입력 순서에 따른 확률 편차를 제거하고, “팀‑불변성”을 보장한다.

성능 측면에서 5.4M 고유 시나리오 중 1.7M를 검증에 사용했으며, d=64, H=2, L=2 구성에서 77.1% 정확도를 기록한다. 파라미터 수는 104K로 매우 경량화돼, 메커니즘 해석에 적합하다.

해석 실험은 세 단계로 진행된다. 첫째, DoWhy 프레임워크를 활용해 각 캐릭터의 평균 처리 효과(ATE)를 추정했으며, 임신한 여성·유모차 등은 +0.12~+0.11의 긍정적 효과를, 범죄자·노인·고양이 등은 -0.10~ -0.04의 부정적 효과를 보였다. 이는 모델이 인간 데이터에서 학습한 도덕적 위계(‘생명 가치’ 계층)를 그대로 반영한다는 증거다.

둘째, 층‑별 어텐션 가중치와 편향 점수 간의 분산·상관 곱(I_ℓ,h)을 계산해 편향이 어느 층·헤드에 집중되는지 파악했다. 법률 편향은 0층에, 종(species) 편향은 1층에 주로 나타났으며, 성별·연령·사회적 역할 편향은 두 층에 고르게 분포하지만 서로 다른 헤드에 특화돼 있다. 이는 얕은 네트워크라도 초기 단계에서 속성 인식, 후속 단계에서 교차 비교가 이루어짐을 시사한다.

셋째, 회로 탐색(circuit probing)으로 CLS 토큰을 업데이트하는 MLP 블록 내 256개 뉴런 중 45개(≈18%)만을 선택해 높은 KNN 정확도(0.956)와 실험적 인과 효과(전체 성능 향상의 8.3%)를 달성했다. 해당 서브네트워크를 제거하면 모델‑스코어 일치도가 1.2%p 감소한다. 이는 도덕 점수 계산이 매우 희소한 뉴런 집합에 의해 구현된다는 강력한 증거다.

전반적으로 이 논문은 “도덕 판단 = 이해관계자 식별 → 수량화 → 비교”라는 가설을 모델 구조와 해석 기법을 통해 실증한다. 작은 규모에도 불구하고 의미 있는 편향을 발견하고, 그 위치와 원인을 구체적으로 규명함으로써, 향후 윤리적 AI 시스템에 대한 정밀한 디버깅·조정 전략을 제시한다. 다만, 데이터 자체가 문화적 편향을 내포하고 있어 모델이 이를 그대로 학습한다는 한계는 명시적으로 인정하고 있다.

도덕적 판단을 위한 해석 가능한 트랜스포머 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기