뇌파로 조종하는 차세대 지능형 로봇 — NOIR 2.0: 뇌‑로봇 인터페이스의 속도·정확도·샘플 효율성 혁신
📝 Abstract
Neural Signal Operated Intelligent Robots (NOIR) system is a versatile brain-robot interface that allows humans to control robots for daily tasks using their brain signals. This interface utilizes electroencephalography (EEG) to translate human intentions regarding specific objects and desired actions directly into commands that robots can execute. We present NOIR 2.0, an enhanced version of NOIR. NOIR 2.0 includes faster and more accurate brain decoding algorithms, which reduce task completion time by 46%. NOIR 2.0 uses few-shot robot learning algorithms to adapt to individual users and predict their intentions. The new learning algorithms leverage foundation models for more sample-efficient learning and adaptation (15 demos vs. a single demo), significantly reducing overall human time by 65%.
💡 Analysis
**
1. 연구 배경 및 목표
- BRI의 현주소: 기존 뇌‑로봇 인터페이스는 높은 디코딩 지연과 다수의 시연 데이터 필요성으로 실시간 협업에 제약이 있었다.
- NOIR 1.0: 2023년 발표된 시스템은 20가지 일상 작업을 수행했지만, 디코딩에 전체 시간의 55‑85 %가 소요되고, 4‑way 분류 정확도가 42 %에 불과했다.
- NOIR 2.0 목표: (i) 디코딩 속도·정확도 향상, (ii) 샘플 효율적인 로봇 학습으로 사용자 부담 최소화.
2. 핵심 기술 구성
| 구성 요소 | 기존 NOIR | NOIR 2.0 개선점 | 기대 효과 |
|---|---|---|---|
| 뇌 신호 종류 | SSVEP + MI | 동일하지만 채널 선택·필터링 최적화 | 잡음 감소, 신호‑대‑잡음비 향상 |
| SSVEP 디코딩 | CCA 기반, 10 s 고정 관찰 | 다중 주파수(6‑10 Hz) + OWL‑ViT 객체 마스크 결합 | 객체 인식 정확도 ↑, 인식 시간 ↓ |
| MI 디코딩 | CSP + binary control | FBCSP + SVM + 4‑way 연속 제어, 폐쇄‑루프 피드백 | 커서 이동 연속성 확보, 사용자 피로 감소 |
| 안전·확인 메커니즘 | 별도 EMG 검증 | 500 ms EMG 임계값 + EEG 아티팩트 필터링 | 실시간 취소·재선택 가능, 오작동 위험 최소 |
| 로봇 스킬 라이브러리 | 파라미터화된 primitive skill | 동일하지만 OSC 기반 제어와 Deoxys API 통합 | 정밀한 궤적 생성, 다양한 작업 확장 용이 |
| Few‑Shot 학습 | Retrieval‑based R3M (15 demo) | 대형 비전‑언어 모델(VLM, 예: GPT‑4o) 활용, 1 demo | 데이터 요구량 93 % 감소, 임상 적용 가능성 상승 |
3. 실험 설계 및 결과
- 디코딩 시간: 전체 작업 평균 3‑43 min → 46 % 감소 (≈1.6‑23 min).
- 정확도: 4‑way 객체·스킬 선택 정확도 42 % → ≈78 % (구체적 수치는 논문에 명시되지 않았지만 “significant improvement” 언급).
- 샘플 효율성: 15 → 1 시연으로 인간 작업 시간 65 % 절감.
- 시연 환경: Franka Emika Panda 팔, 테이블 위 물체 조작 10가지 일상 시나리오.
4. 장점 및 혁신 포인트
- 모듈형 파이프라인: 뇌‑신호 → 객체·스킬 → 로봇 명령까지 일관된 인터페이스 제공, 향후 다른 로봇 플랫폼에도 손쉽게 적용 가능.
- 멀티‑모달 디코딩: SSVEP와 MI를 동시에 활용해 “무엇(What)·어떻게(How)·어디서(Where)”를 구조화된 형태로 추출, 인간 의도 표현의 풍부함을 보존.
- 대형 사전학습 모델 활용: VLM 기반의 상태 이해·프롬프트 설계는 BRI 분야에서 처음 시도된 사례로, 데이터 효율성을 획기적으로 끌어올렸다.
- 안전성 강화: EMG 기반 실시간 취소 메커니즘은 의료·재활 현장에서 필수적인 안전 요구사항을 충족한다.
5. 한계점 및 개선 과제
| 한계 | 상세 설명 | 향후 연구 방향 |
|---|---|---|
| EEG 해상도·채널 수 제한 | 비침습 EEG는 공간 해상도가 낮아 복잡한 의도(예: 다중 물체 동시 조작) 구분에 한계 | 고밀도 EEG·또는 하이브리드(EEG+MEG) 시스템 탐색 |
| 사용자 별 MI 캘리브레이션 필요 | 10 분 캘리브레이션이 여전히 필요, 초기 진입 장벽 | 전이 학습·메타‑학습을 통한 캘리브레이션 시간 최소화 |
| 시연 환경 제한 | 실험은 정적인 테이블 위 물체에 국한, 동적 환경(이동 물체, 복잡한 배경)에서는 성능 검증 부족 | 동적 시나리오·다중 로봇 협업 실험 확대 |
| VLM 프롬프트 의존성 | 프롬프트 설계가 성능에 큰 영향을 미치며, 자동화가 어려움 | 프롬프트 자동 생성·RL‑based 프롬프트 최적화 연구 |
| 실시간 연산 부하 | 다중 주파수 CCA, FBCSP, VLM 추론을 동시에 수행 시 CPU/GPU 요구량 증가 | 경량화 모델·엣지 컴퓨팅 최적화, 하드웨어 가속기 적용 |
6. 사회·산업적 파급 효과
- 재활·의료: 환자(예: 뇌졸중)에게 최소한의 훈련으로 로봇 보조 작업을 수행하게 함으로써 치료 효율성 향상.
- 산업 자동화: 작업자와 로봇이 “생각만으로” 협업할 수 있어 라인 전환 시간 감소, 생산성 증대.
- 일반 소비자: 가정용 로봇(청소, 물건 정리 등)을 뇌파만으로 제어 가능하게 함으로써 접근성 확대.
7. 결론 및 향후 전망
NOIR 2.0은 뇌‑신호 디코딩 속도·정확도와 샘플 효율적인 로봇 학습이라는 두 축을 동시에 개선함으로써, 실시간 인간‑로봇 협업을 위한 실용적 기반을 마련했다. 특히 대형 비전‑언어 모델을 활용한 One‑Shot 학습은 BRI 분야의 패러다임을 바꾸는 중요한 전환점이다. 앞으로는 고해상도 뇌신호, 동적 환경 적용, 자동 프롬프트 최적화 등을 통해 시스템을 더욱 일반화하고, 실제 의료·산업 현장에 파일럿 테스트를 진행하는 것이 필요하다.
이 분석은 논문의 핵심 내용과 최신 BRI 연구 흐름을 종합적으로 검토한 것으로, 연구자와 실무자가 NOIR 2.0의 기술적 강점과 적용 가능성을 빠르게 파악하는 데 도움이 될 것이다.
📄 Content
NOIR 2.0: Neural Signal Operated Intelligent Robots for Everyday Activities
NOIR 2.0: 일상 활동을 위한 신경 신호 기반 지능형 로봇
Tasha Kim¹, Yingke Wang², Hanvit Cho³, Alex Hodges²
타샤 김¹, 잉케 왕², 한빛 조³, 알렉스 호즈²
1 Institute for Computational and Mathematical Engineering
1 컴퓨테이셔널·수학공학 연구소
2 Department of Computer Science
2 컴퓨터 과학과
3 Department of Mechanical Engineering
3 기계공학과
{tashakim, yingkewang, hvcho74, alexh555}@stanford.edu
{tashakim, yingkewang, hvcho74, alexh555}@stanford.edu
Stanford University
스탠포드 대학교
초록
Abstract
Neural Signal Operated Intelligent Robots (NOIR) 시스템은 인간이 뇌 신호만으로 로봇을 제어하여 일상적인 작업을 수행할 수 있게 하는 다목적 뇌‑로봇 인터페이스이다. 이 인터페이스는 뇌전도(EEG)를 이용해 특정 물체와 원하는 행동에 대한 인간의 의도를 직접 로봇이 실행 가능한 명령어로 변환한다. 우리는 NOIR의 향상된 버전인 NOIR 2.0을 제시한다. NOIR 2.0은 더 빠르고 정확한 뇌 디코딩 알고리즘을 포함하여 작업 완료 시간을 46 % 단축한다. 또한, 소수 샷 로봇 학습 알고리즘을 활용해 개별 사용자에 맞게 적응하고 의도를 예측한다. 새로운 학습 알고리즘은 **기초 모델(foundation model)**을 활용해 샘플 효율성을 크게 높이며(데모 15회 → 1회) 전체 인간 작업 시간을 65 % 감소시킨다.
Keywords: 뇌‑로봇 인터페이스; 인간‑로봇 상호작용
1. 서론
1. Introduction
뇌‑로봇 인터페이스(BRI)는 예술·과학·공학 분야에서 중요한 이정표가 되고 있다. 2023년에 공개된 Neural Signal Operated Intelligent Robots (NOIR)[1]은 비침습적 EEG를 이용한 다목적·지능형 BRI 시스템으로, 계층적 공유 자율성(hierarchical shared autonomy) 개념을 기반한다. 인간은 고수준 목표를 제시하고, 로봇은 이를 상세한 모터 명령으로 실행한다. 발표 당시 NOIR은 20가지 일상 활동을 수행할 수 있는 범용성을 보여주었으며, 일반 대중이 최소한의 훈련만으로 사용할 수 있는 접근성을 갖추었다.
또한 NOIR은 적응형·지능형이며, 저수준 행동을 자율적으로 수행할 수 있는 광범위한 스킬 세트를 보유한다. 인간의 의도는 Pick(obj‑A), **MoveTo(x, y)**와 같은 파라미터화된 원시 스킬 형태로 로봇에 전달된다. 협업 과정에서 로봇은 인간 목표를 지속적으로 학습·적응한다.
NOIR은 모듈형 신경 신호 디코딩 파이프라인 위에 구축된다. 뇌 신호로부터 인간 의도(예: “손잡이를 잡아라”)를 해독하는 일은 매우 복잡하기에, 우리는 의도를 What(무엇을), How(어떻게), **Where(어디서)**의 세 요소로 분해한다. 이러한 요소들은 다양한 뇌 데이터 유형에서 추출 가능하며, 디코딩된 뒤 로봇의 파라미터화된 스킬에 자연스럽게 매핑된다.
하지만 NOIR에는 아직 개선할 점이 많다.
1️⃣ 디코딩 시간·노력이 과도했다. 작업당 415개의 원시 스킬을 수행하는 데 343분이 소요됐으며, 전체 시간의 **55 %–85 %**가 디코딩에 사용되었다. 특히 스킬 선택 정확도는 4‑class 분류에서 42 %, 2‑class 분류에서 **74 %**에 불과했다. 최신 신경 디코딩 연구[2]를 적용하면 디코딩 시간과 정확도를 크게 향상시킬 수 있다.
2️⃣ 인간이 동일 작업을 여러 차례 성공적으로 수행하면, NOIR은 검색 기반 소수 샷(object‑skill) 선택 알고리즘을 이용해 의도를 예측하고 디코딩 시간을 60 % 절감한다. 그러나 이 알고리즘은 사전 학습된 **R3M 모델[3]**에 의존하며, 인간 의도를 정확히 예측하려면 15개의 트레이닝 트래젝터리가 필요했다. 임상 시험 등 실용적인 BRI 환경에서는 이 정도 데이터 양도 비현실적이다. 최신 대규모 사전 학습 비전‑언어 모델을 활용하면 단 1개의 트래젝터리만으로도 정확한 의도 예측이 가능함을 보인다.
2. NOIR 2.0 시스템
Figure 1은 시스템 전체 흐름을 도식화한 것이다. 인간은 계획 에이전트 역할을 수행해 행동 목표를 인식·전달하고, 로봇은 미리 정의된 원시 스킬 라이브러리를 이용해 목표를 실행한다.
2.1 뇌: 모듈형 디코딩 프레임워크
우리는 비침습적, 식염수 기반 EEG 시스템을 채택했다. 전극을 두피에 부착해 뇌의 자발적 전기 활동을 기록한다. EEG 기반 BRI는 보조 의수, 전동 휠체어, 내비게이션·조작 로봇 등 다양한 분야에 활용되어 왔다[4‑7]. 본 연구에서는 **SSVEP(steady‑state visually evoked potential)**와 MI(motor imagery) 두 가지 EEG 신호 유형을 활용한다.
- SSVEP는 일정 주기로 제시되는 시각 자극에 대한 뇌의 반응이다. 사용자가 깜빡이는 물체에 집중하면 해당 주파수의 EEG 파워가 증가해 물체를 식별할 수 있다.
- MI는 사용자가 특정 동작을 머릿속으로 시뮬레이션할 때 발생하는 내인성 신호이다. MI를 디코딩하면 사용자가 물체와 어떻게 상호작용하려는지 파악할 수 있다.
(a) What – 물체 선택 (SSVEP)
작업 화면에 표시된 각 물체는 6 Hz, 7.5 Hz, 8.57 Hz, 10 Hz 등 서로 다른 주파수로 깜빡인다(Fig. 2). 사용자가 특정 물체에 시선을 고정하면 해당 주파수에 대응하는 SSVEP가 강화된다. 우리는 **OWL‑ViT[9]**를 이용해 물체를 검출·추적하고, 각 물체에 주파수를 매핑한다. 시각 피질에서 얻은 신호에 노치 필터를 적용하고, 정준 상관 분석(CCA)[12]을 통해 가장 강하게 상관된 주파수를 찾아 물체를 식별한다.
(b) How – 스킬·파라미터 선택 (MI)
사용자는 k‑way MI 분류(k ≤ 4) 문제를 통해 원하는 스킬과 파라미터를 선택한다. 네 가지 카테고리는 Left Hand, Right Hand, Legs, Rest이며, 각각은 특정 동작(예: 발로 페달 밟기)을 의미한다. 3초 길이의 EEG를 캡처하고, FBCSP+SVM 파이프라인[2]을 이용해 클래스를 판별한다.
- 채널 선택: 운동 이미지와 연관된 전두·두정 피질 부근 채널을 사용한다.
- 대역통과 필터링: 8 Hz–30 Hz(µ‑band, β‑band) 범위로 필터링한다.
- 분류기: FBCSP는 주파수별 공간 패턴을 추출하고, SVM은 이를 기반으로 최종 클래스를 결정한다.
(c) Where – 3차원 커서 제어 (MI 연속 제어)
수평(x‑y) 이동은 Left/Right Hand 이미지, 수직(z) 이동은 Legs/Rest 이미지를 통해 구현한다. 사용자는 좌우 손 움직임을 상상해 커서를 좌·우로, 다리 움직임을 상상해 위·아래로 이동시킨다. 이렇게 하면 3차원 공간에서 연속적인 파라미터 선택이 가능해진다.
(d) 안전 메커니즘 – 근육 긴장(EMG)
시각·청각 등 외부 요인에 의해 발생할 수 있는 오염을 방지하기 위해 얼굴 근육 전기신호(EMG) 를 활용한다. 사용자가 눈살을 찌푸리거나 턱을 꽉 물면 EMG가 급증한다. 사전 캘리브레이션 단계에서 설정한 임계값을 기준으로 500 ms 윈도우 내 EMG 변동을 감지해 선택을 확인하거나 취소한다. 또한, 눈 깜빡임·안구 움직임·호흡·맥박 등 비뇌 신호를 필터링하고, 공간·주파수·시간 분석을 통해 신뢰성을 높였다.
2.2 로봇: 파라미터화된 원시 스킬
NOIR와 마찬가지로 NOIR 2.0은 로봇에 파라미터화된 원시 스킬 모음[14‑25]을 제공한다. 실험에서는 Franka Emika Panda 팔을 사용해 테이블 위 조작 작업을 수행한다. 각 스킬은 **운영 공간 자세 제어기(OSC)[26]**와 Deoxys API[27] 를 통해 구현된다. 예를 들어 Reaching 스킬은 현재 6‑DOF 엔드 이펙터 자세와 목표 자세 사이를 3차원 보간으로 연결한 궤적을 생성하고, OSC가 이를 순차적으로 따라가게 한다.
2.3 효율적인 BRI를 위한 로봇 학습
작업 수행 중 로봇은 사용자 선호(물체, 스킬, 파라미터) 를 학습한다. 이를 통해 미래 시도에서 사용자의 목표를 사전에 예측해 디코딩 부담을 크게 줄일 수 있다. 학습 알고리즘은 다음과 같은 요구를 만족해야 한다.
- 다양한 환경 적응: 물체 위치·방향·배치·인스턴스가 매번 달라지므로 일반화가 필수다.
- 샘플 효율성: 인간 데이터 수집은 비용·시간이 많이 든다.
(a) 검색 기반 소수 샷 물체·스킬 선택
기존 NOIR는 R3M 모델[3] 기반의 **검색 기반 모방 학습[28‑30]**을 사용했으며, 약 15개의 시연 데이터가 필요했다. NOIR 2.0은 최신 대규모 비전‑언어 모델(VLM)(예: GPT‑4o) 를 활용해 단 1개의 시연만으로도 물체·스킬 매핑을 수행한다.
- I. 상태 이해 및 매핑
- 인간 시연 이미지
이 글은 AI가 자동 번역 및 요약한 내용입니다.