인기 편향 제어를 위한 해석 가능한 뉴런 스티어링

인기 편향 제어를 위한 해석 가능한 뉴런 스티어링
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PopSteer는 사전 학습된 추천 모델의 임베딩을 복제하도록 훈련된 희소 자동인코더(SAE)를 이용해 인기 편향을 해석하고, 인기·비인기 신호를 담은 합성 사용자 프로파일을 통해 편향을 담당하는 뉴런을 식별한다. 식별된 뉴런의 활성값을 조정함으로써 추천 결과의 아이템 노출 공정성을 향상시키면서 정확도 손실을 최소화한다.

상세 분석

본 논문은 추천 시스템에서 흔히 발생하는 인기 편향(popularity bias)을 사후(post‑hoc) 방식으로 완화하는 새로운 프레임워크인 PopSteer를 제안한다. 핵심 아이디어는 사전 학습된 추천 모델의 출력 임베딩을 입력으로 받아, 동일한 임베딩을 재구성하도록 훈련된 희소 자동인코더(SAE)를 활용해 뉴런 수준의 해석 가능성을 확보하는 것이다. SAE는 Top‑K 활성화 메커니즘을 통해 각 입력에 대해 제한된 수(K ≪ N)의 뉴런만을 활성화시키며, 이 과정에서 각 뉴런이 특정 개념에 특화되도록 유도한다.

편향을 진단하기 위해 저자들은 두 종류의 합성 사용자 프로파일을 만든다. 하나는 인기 아이템(헤드)만을 포함하고, 다른 하나는 비인기 아이템(테일)만을 포함한다. 이러한 극단적인 프로파일을 사전 학습된 추천 모델에 통과시켜 사용자 임베딩을 얻은 뒤, SAE에 입력한다. 각 뉴런의 활성화 분포를 평균·표준편차로 요약하고, 인기·비인기 프로파일 간 차이를 Cohen’s d로 정량화한다. |d|가 큰 뉴런은 인기 신호를 강하게 반영한다는 의미이며, d>0이면 인기 아이템에, d<0이면 비인기 아이템에 민감함을 나타낸다.

편향 완화 단계에서는 이러한 d값을 기준으로 뉴런을 선택하고, 선택된 뉴런의 활성값을 표준편차 σ에 비례해 감소(인기‑편향 뉴런) 혹은 증가(비인기‑편향 뉴런)시킨다. 조정 강도는 α_pop, α_unpop이라는 하이퍼파라미터와 β(절댓값 d 임계값)로 제어한다. 조정 후 Top‑K 연산을 다시 적용해 희소성을 유지하고, 수정된 은닉 활성값을 디코더에 통과시켜 새로운 사용자 임베딩 p′을 얻는다. 최종 추천은 원래 아이템 임베딩과 p′을 사용해 점수를 계산함으로써, 인기 편향을 억제한 결과를 제공한다.

실험에서는 SASRec 기반 순차 추천 모델에 PopSteer를 적용해 세 개의 공개 데이터셋(ML‑1M, BeerAdvocate, Yelp)에서 평가하였다. 주요 평가지표는 정확도(NDCG, HR)와 공정성(노출 불균형 지표, Gini, Popularity Gap)이다. 결과는 PopSteer가 기존 재가중치 방식이나 손실 함수 수정 방식보다 공정성을 크게 개선하면서도 정확도 감소를 1~2% 수준으로 제한함을 보여준다. 또한, 뉴런 별 d값 시각화와 사례 분석을 통해 특정 뉴런이 ‘인기 아이템 선호’ 혹은 ‘긴 꼬리 아이템 선호’와 강하게 연관됨을 확인했으며, 이는 모델 내부 메커니즘을 투명하게 드러내는 중요한 증거가 된다.

이와 같이 PopSteer는 (1) 사후 적용 가능성으로 재학습 비용을 절감하고, (2) 뉴런 수준의 해석 가능성을 제공해 편향 원인을 직접 진단·조정할 수 있으며, (3) 조정 강도를 α, β 파라미터로 미세하게 제어함으로써 공정성‑정확도 트레이드오프를 사용자 요구에 맞게 조정할 수 있다는 장점을 가진다.


댓글 및 학술 토론

Loading comments...

의견 남기기