뇌파로 제어하는 LLM, 사용자 선호에 맞춘 이미지 생성

본 논문은 64채널 EEG를 이용해 사용자가 생성된 이미지에 만족하는지를 실시간으로 판단하고, 그 신호를 테스트‑타임 스케일링(TTS) 프레임워크에 연결해 LLM 기반 이미지 생성 모델을 동적으로 재조정한다. 실험을 통해 EEG가 만족도 예측에 유의미한 정보를 제공함을 확인하고, 이를 통해 사용자 선호와 더 잘 맞는 결과를 얻을 수 있음을 보였다.

저자: Junzi Zhang, Jianing Shen, Weijie Tu

뇌파로 제어하는 LLM, 사용자 선호에 맞춘 이미지 생성
본 논문은 대형 언어 모델(LLM)이 인간‑컴퓨터 상호작용(HCI)에서 핵심 역할을 수행하고 있지만, 언어 입력이 어려운 사용자—특히 ALS와 같은 운동·언어 장애를 가진 사람들—에게는 접근성이 제한된다는 문제점을 제기한다. 이를 해결하고자 저자들은 뇌파(EEG)를 이용해 사용자의 실시간 선호 신호를 추출하고, 이를 테스트‑타임 스케일링(Test‑Time Scaling, TTS) 프레임워크에 통합하는 ‘Brain‑LLM 인터페이스’를 설계하였다. **1. 데이터셋 구축 (BLID)** - 참여자: 10명(평균 연령 21.5세, 4명 여성), 모두 정상 시력 보유. - 실험 설계: 각 참여자는 130개의 텍스트‑프롬프트와 그에 대응하는 이미지 생성 결과를 평가, 총 1,300개의 트라이얼을 수행. - 프롬프트 구성: GPT‑4o를 활용해 450개의 프롬프트를 생성하고, 의미적 테마 6가지와 도전 과제 14가지(예: 색채 조화, 구도 복잡성 등)를 균등하게 포함하도록 층화 샘플링 후 130개를 선택. - EEG 기록: 64채널 Neuracle 시스템, 1 kHz 샘플링, 각 트라이얼은 고정된 타임라인(고정 십자 → 프롬프트 → 이미지 → 만족도 버튼)으로 진행. 버튼 클릭 직전 –2.3 ~ –0.3 초 구간을 분석에 사용해 운동 잡음 배제. **2. EEG 만족도 디코더** - 전처리: 밴드패스(1‑40 Hz) → ICA 기반 아티팩트 제거 → epoch화. - 모델: EEGNet 기반 CNN‑RNN 하이브리드, 2‑class(만족/불만족) 분류. - 학습: 5‑fold 교차 검증, 클래스 균형을 위해 SMOTE 적용. - 성능: 평균 정확도 73 %, F1‑score 0.71, 특히 ‘Unsatisfied’ 라벨에서 재현율 0.78. **3. 테스트‑타임 스케일링 통합** - 기본 흐름: 초기 프롬프트 p₀ → 이미지 생성기 G(p₀) → 사용자 시청 → EEG 수집 → 디코더 D(e) → 만족도 점수 p_score. - 결정 로직: p_score ≥ τ(0.6)이면 현재 이미지 반환, 미달이면 프롬프트 리파인먼트 연산 R(p₀, yₜ, pₜ)를 수행해 새로운 프롬프트 pₜ₊₁ 생성 후 재생성. 최대 반복 횟수 T_max=3으로 제한. - 리파인먼트 연산 R은 사전 훈련된 LLM(예: GPT‑4o)에게 “사용자가 만족하지 않았다”는 피드백을 제공하고, 부정 예시를 강조하도록 프롬프트를 수정하도록 설계. **4. 실험 및 결과** - 베이스라인: 단일 패스 이미지 생성 후 사용자 평가만 수행. - 주요 지표: (a) 사용자 만족도 비율, (b) 평균 재생성 횟수, (c) 주관적 품질 점수(1‑5 Likert). - 결과: EEG‑TTS 파이프라인 적용 시 만족도 비율이 68 %→76 %로 8 % 상승, 평균 재생성 횟수는 1.3회(베이스라인 1회)로 크게 증가하지 않음, 품질 점수도 0.4점 상승. 통계적 유의성(p<0.05) 확보. **5. 논의** - EEG가 실시간 선호 신호를 제공한다는 점은 기존 BCI 연구(감정·인지 상태 인식)와 일맥상통하지만, 여기서는 직접적인 모델 제어에 활용했다는 점에서 차별화된다. - 현재 시스템은 ‘만족/불만족’이라는 이진 신호에 의존하므로, 세밀한 선호 차이를 반영하기엔 한계가 있다. 향후 다중 클래스 혹은 연속형 만족도 추정으로 확장 가능. - 개인별 EEG 특성 차이로 인해 현재는 피험자별 모델을 별도 학습해야 하는데, 이는 실용적 배포에 장애가 된다. 도메인 적응 및 메타‑러닝 기반 범용 디코더 개발이 필요하다. - 실시간 적용을 위해서는 캡 착용의 불편함, 신호 전처리 지연, 그리고 TTS 연산 비용을 최소화하는 경량 모델이 요구된다. **6. 결론 및 향후 연구** 본 연구는 “뇌파 → 만족도 → 테스트‑타임 스케일링”이라는 새로운 인터페이스 파이프라인을 제시함으로써, 언어 입력이 어려운 사용자를 위한 대안적 HCI 채널을 탐색한다. 데이터셋(BLID)과 초기 구현은 향후 더 큰 규모의 다인종·다연령 데이터, 실제 장애인 대상 실험, 그리고 범용 EEG 디코더 개발을 위한 토대가 될 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기