두 흐름 보상으로 확장된 Q학습: 신경정신 질환 모델링과 AI 적용
** 본 논문은 기존 Q‑Learning에 긍정·부정 두 종류의 보상을 별도 테이블로 분리하고, 각 흐름에 가중치(φ₁~φ₄)를 부여하는 “Split Q Learning(SQL)”을 제안한다. 파킨슨, 알츠하이머, ADHD, 중독, 만성통증 등 다양한 신경·정신 질환에서 보고된 보상 처리 편향을 파라미터 설정으로 모사한다. 실험은 9가지 비디오 게임에서 정적·동적 보상 환경을 변형해 수행했으며, SQL이 표준 Q‑Learning보다 장기 성…
저자: Baihan Lin, Djallel Bouneffouf, Guillermo Cecchi
**
본 논문은 인간의 의사결정 과정에서 관찰되는 보상 처리 편향을 강화학습 알고리즘에 통합하고자 하는 시도이다. 저자들은 기존 Q‑Learning이 단일 스칼라 보상에 의존해 인간이 상황에 따라 긍정·부정 보상을 비대칭적으로 학습하는 현상을 포착하지 못한다는 점을 지적한다. 이를 해결하기 위해 “Split Q Learning(SQL)”이라는 새로운 프레임워크를 제안한다.
SQL은 두 개의 Q‑테이블, 즉 긍정 보상을 기록하는 Q⁺와 부정 보상을 기록하는 Q⁻를 동시에 유지한다. 매 타임스텝마다 현재 상태‑행동 쌍에 대한 종합 Q값을 `Q(s,a) = φ₂·Q⁺(s,a) + φ₄·Q⁻(s,a)` 로 계산하고, 이를 기반으로 행동을 선택한다. 이후 각각의 테이블을 다음과 같이 업데이트한다.
- `Q⁺(s,a) ← φ₁·Q⁺(s,a) + α·
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기