대형 언어 모델(LLM) 기반 맞춤형 디지털 물리·작업 치료 처방 시스템: 임상 현장에서의 실시간 소프트웨어 생성 및 평가

2026년 02월 23일

읽는 시간: 9 분

...

📝 Abstract

Digital health interventions increasingly deliver home exercise programs via sensor-equipped devices such as smartphones, enabling remote monitoring of adherence and performance. However, current software is usually authored before clinical encounters as libraries of modules for broad impairment categories. At the point of care, clinicians can only choose from these modules and adjust a few parameters (for example, duration or repetitions). As a result, individual limitations, goals, and environmental constraints are often not reflected, limiting personalization and benefit. We propose a paradigm in which large language models (LLMs) act as constrained translators that convert clinicians’ exercise prescriptions into intervention software. Clinicians remain the decision makers: they design exercises during the encounter, tailored to each patient’s impairments, goals, and environment, and the LLM generates matching software. We conducted a prospective single-arm feasibility study with 20 licensed physical and occupational therapists who created 40 individualized upper extremity programs for a standardized patient; 100% of prescriptions were translated into executable software, compared with 55% under a representative template-based digital health intervention (p < 0.01). LLM-generated software correctly delivered 99.7% of instructions and monitored performance with 88.4% accuracy (95% confidence interval, 0.843-0.915). Overall, 90% of therapists judged the system safe for patient interaction and 75% expressed willingness to adopt it in practice. To our knowledge, this is the first prospective evaluation of clinician-directed intervention software generation with an LLM in health care, demonstrating feasibility and motivating larger trials in real patient populations.

💡 Analysis

1. 연구 배경 및 필요성

디지털 치료제(DHI)의 한계: 현재 DHI는 사전 정의된 모듈 라이브러리를 사용해 환자 맞춤형 옵션을 제한적으로만 제공한다. 이는 환자별 세부 목표·제한·환경을 반영하지 못해 치료 순응도와 효과가 저하되는 원인으로 지적된다.
LLM의 잠재력: 최신 대형 언어 모델은 자연어를 코드로 변환하는 능력이 뛰어나며, 의료 분야에서도 진단·요약·임상 의사결정 지원에 활용되고 있다. 그러나 환자와 직접 상호작용하는 소프트웨어 생성은 아직 미탐색 영역이다.

2. 제안된 패러다임

역할 분리: 치료사는 임상 현장에서 운동 처방을 자유 텍스트로 작성하고, LLM은 이를 제한된 번역기 역할로서 코드(앱/스크립트)로 변환한다. LLM은 임상 내용 자체를 수정하지 않으며, 오직 형식화와 실행 가능성만을 담당한다.
시스템 흐름:
1. 치료사가 텍스트 기반 처방 입력 →
2. LLM(프롬프트와 안전 제약 조건 포함) →
3. 자동 코드 생성 →
4. 스마트폰/웨어러블에 배포 →
5. 센서를 통한 실시간 수행 모니터링 →
6. 결과를 치료사에게 피드백.

3. 실험 설계

요소	내용
디자인	전향적 단일군(단일 팔) 파일러빌리티 연구
참여자	20명 인증된 물리·작업 치료사
대상	표준화된 환자(안전 검증 목적)
처방 수	40개의 상지 맞춤형 프로그램(398개 개별 지시)
비교 기준	기존 템플릿 기반 DHI(대표적인 라이브러리)
평가 항목	(i) 사용성, (ii) 개인화 가능성, (iii) 지시·모니터링 정확도, (iv) 안전성 인식, (v) 채택 의향

4. 주요 결과

소프트웨어 변환 성공률
- LLM 기반: 100 % (40/40) → 실행 가능한 앱 생성.
- 기존 템플릿: 55 % (22/40) → 통계적으로 유의미한 차이(p < 0.01).
지시 전달 정확도
- 397/398 지시가 정확히 구현 → 99.7 % 정확도.
모니터링 정확도
- 88.4 % (95 % CI = 0.843‑0.915) → 센서 기반 움직임 인식 및 반복/범위 측정이 높은 신뢰성을 보임.
사용성 및 수용도
- 모든 치료사(Likert 4.5 ± 0.5) 가 “쉽고 직관적”이라고 평가.
- 90 %가 안전성에 긍정적, 75 %가 실제 진료에 도입 의향.
개인화 범주 (표 1 요약)
- 절차 변형, 신규 장비 사용, 상황별 대체 규칙, 보상 전략 등 5가지 주요 개인화 요소가 기존 템플릿에서는 지원되지 않았으나 LLM은 모두 구현.

5. 의의 및 혁신성

임상 흐름의 역전: 기존에는 “소프트웨어 → 처방” 순서였으나, 제안 모델은 “처방 → 소프트웨어” 순서로 바꾸어, 치료사가 환자 정보를 완전하게 파악한 뒤 맞춤형 코드를 자동 생성한다.
개인화 한계 극복: LLM은 복잡한 절차 변형·조건부 로직·새로운 도구 사용 등을 자유롭게 코드화함으로써, 디지털 치료제의 표현력을 크게 확장한다.
안전성 검증: 표준화된 환자를 이용한 최초 안전성 평가로, 실제 환자 적용 전 위험성을 최소화한다.

6. 제한점

구분	내용
표준화된 환자 사용	실제 환자와의 상호작용에서 발생할 수 있는 예외 상황(예: 급성 통증, 비협조) 검증이 부족함.
LLM 제어 범위	“제한된 번역기” 역할을 보장하기 위한 프롬프트 설계와 안전 필터링이 복잡하며, 모델 업데이트 시 재검증 필요.
센서 정확도 의존	스마트폰/웨어러블 센서의 품질에 따라 모니터링 정확도가 변동될 수 있음.
규제·법적 이슈	의료용 소프트웨어 자동 생성은 FDA/EMA 등 규제기관의 사전 승인 절차가 필요할 가능성이 높음.
스케일링	20명 치료사·표준 환자 수준에서의 파일러빌리티는 충분하지만, 대규모 다기관 임상시험에서의 재현성 검증이 필요.

7. 향후 연구 방향

실 환자 대상 임상시험 – 장기 추적을 통해 치료 효과(기능 회복, 순응도)와 안전성을 검증.
다양한 치료 분야 확장 – 하체 재활, 신경재활, 언어 치료 등 다른 영역에 적용 가능성 탐색.
모델 및 프롬프트 자동 최적화 – 치료사의 피드백을 기반으로 지속적인 프롬프트 튜닝 및 안전 필터 자동 업데이트.
규제 프레임워크 구축 – 의료용 AI·소프트웨어에 대한 표준화된 검증·인증 절차와 연계.
멀티모달 센서 통합 – 비전, IMU, 근전도(EMG) 등 복합 센서를 결합해 모니터링 정확도와 풍부한 피드백 제공.

🇺🇸 Read in English

📄 Content

임상의가 직접 설계하는 대규모 언어 모델 기반
물리 재활용 디지털 치료 소프트웨어 생성

Edward Kim¹†, Yuri Cho¹†, José Eduardo E. Lima²,
Julie Muccini², Jenelle Jindal², Alison Scheid³, Erik Nelson¹,
Seong Hyun Park¹, Yuchen Zeng¹, Alton Sturgis¹, Caesar Li¹,
Jackie Dai¹, Sun Min Kim¹, Yash Prakash¹, Liwen Sun¹,
Isabella Hu¹, Hongxuan Wu¹, Daniel He¹, Wiktor Rajca¹,
Cathra Halabi³, Maarten Lansberg², Bjoern Hartmann¹,
Sanjit A. Seshia¹*

¹ 전기공학 및 컴퓨터과학과, 캘리포니아 대학교 버클리, 미국 캘리포니아주 버클리
² 신경학과, 스탠포드 대학교, 미국 캘리포니아주 스탠포드
³ 신경학과, 캘리포니아 대학교 샌프란시스코, 미국 캘리포니아주 샌프란시스코

*교신 저자. 이메일: ek65@eecs.berkeley.edu
†동등 기여자.

초록

디지털 헬스 개입(DHI)은 스마트폰과 같은 센서가 장착된 기기를 통해 가정용 운동 프로그램을 제공함으로써 물리·작업 치료에서 점점 더 많이 활용되고 있다. 이를 통해 환자의 수행 여부와 운동 품질을 원격으로 모니터링할 수 있다. 그러나 현재의 디지털 치료 패러다임에서는 임상 encounter(진료 전) 단계에서 미리 정의된 모듈 라이브러리를 기반으로 소프트웨어가 설계된다. 진료 현장에서 임상의는 이 라이브러리에서 적절한 모듈을 선택하고, 지속시간·반복 횟수 등 제한된 파라미터만을 조정한다. 진료 중에 드러나는 환자 고유의 움직임 제한, 개인 목표, 가정·직장 환경 등은 소프트웨어에 거의 반영되지 못한다. 이로 인해 개인 맞춤화가 제한되고, 환자 순응도가 낮아지며 치료 효과가 감소한다.

본 연구에서는 대규모 언어 모델(LLM)을 제한된 번역기로 활용하여, 임상의가 제시한 운동 처방을 즉시 실행 가능한 소프트웨어로 변환하는 새로운 디지털 치료 패러다임을 제안한다. 임상의는 여전히 임상적 의사결정권을 유지하면서, 환자의 손상, 목표, 환경에 맞춘 운동을 설계하고, LLM이 이를 소프트웨어 형태로 자동 생성한다.

우리는 20명의 공인 물리·작업 치료사와 표준화된 환자를 대상으로 전향적 단일군 타당성 연구를 수행하였다. 치료사들은 40개의 개별화된 상지 운동 프로그램(총 398개 지시문)을 설계했으며, 이들은 자동으로 실행 가능한 소프트웨어로 변환되었다. 표준화된 환자를 사용한 이유는 LLM이 생성한 치료 소프트웨어의 안전성이 아직 검증되지 않았기 때문이다. 기존 템플릿 기반 DHI와 비교하여, 제안된 패러다임은 개인 맞춤 처방을 소프트웨어로 구현할 수 있는 비율을 45% 증가시켰다(100% 대 55%, p < 0.01). 치료사 전원이 사용이 용이하다고 평가했으며, LLM이 생성한 소프트웨어는 99.7% (397/398)의 지시를 정확히 전달하고, 수행 모니터링 정확도는 88.4% (95% CI, 0.843–0.915)였다. 전체 치료사의 90%가 시스템을 환자와의 상호작용에 있어 안전하다고 판단했으며, 75%는 임상 현장에서 도입할 의향을 보였다.

본 연구는 의료 분야에서 임상의가 직접 설계한 치료 소프트웨어를 LLM이 자동 생성한 최초의 전향적 평가이며, 실 환자 집단을 대상으로 한 대규모 임상시험을 위한 타당성을 입증한다.

키워드: 대규모 언어 모델, LLM 기반 소프트웨어 생성, 디지털 헬스 개입, 물리 재활

1. 서론

디지털 헬스 개입(DHI)[1,2]은 물리·작업 치료에서 점점 더 많이 임상의가 처방한 개입 소프트웨어 형태로 제공되고 있다[3,4]. 이러한 소프트웨어는 단계별 운동 지시를 제공하고, 스마트폰 카메라 기반 동작 추적이나 웨어러블 관성 센서 등을 활용해 순응도와 수행 품질을 객관적으로 기록한다. 따라서 운동이 수행되었는지, 어느 정도의 관절 가동 범위·반복 횟수·템포·자세로 수행했는지를 정량화하고, 그 요약 정보를 임상의에게 전달해 치료 강도 조절(예: 난이도 조정, 새로운 운동 추가) 등에 활용할 수 있다. 이는 종이 기반 워크시트와 달리 환자가 집에서 어떻게 운동을 수행했는지를 실시간으로 파악할 수 있다는 실용적 장점을 제공한다.

하지만 이러한 장점에도 불구하고, 현재의 디지털 처방 패러다임은 맞춤화 능력이 제한적이다. 기존 DHI 플랫폼에서는 진료 전 미리 파라미터화된 운동 라이브러리를 구축하고, 진료 시에는 해당 라이브러리에서 가장 적합한 모듈을 선택한 뒤, 난이도·반복 횟수·시간 등 소수의 파라미터만을 조정한다. 환자와의 대면 진료 중에만 드러나는 개별적인 결손, 개인 목표, 가정·직장 환경 등은 소프트웨어에 충분히 반영되지 못한다. 치료사는 제한된 파라미터만을 조정함으로써 절차적 변형(예: 운동 순서 변경, 동작 품질 조정)이나 상황별 대체(예: 무게가 무거울 경우 대체 동작) 등을 구현하기 어렵다. 이전 연구들은 DHI의 맞춤화 부족이 환자 순응도 저하와 치료 효과 감소와 연관됨을 보고하였다[10–12]. 반면 맞춤 옵션을 무분별하게 확대하면 임상의의 인지 부하가 급증해 일상 진료에 부담을 주는 역효과가 발생한다[13–15].

우리는 대규모 언어 모델(LLM)의 자연어 기반 소프트웨어 생성 능력[16]이 이러한 딜레마를 해소할 수 있다고 가정한다. LLM은 이미 의료 분야 여러 상황에서 활용되고 있으나[17,18], 환자용 소프트웨어를 직접 생성하는 사례는 아직 초기 단계이다. 기존 연구는 LLM을 데이터 검색·처리·시각화 등에 적용했을 뿐, 임상의가 직접 설계한 치료 소프트웨어를 자동 생성하는 데는 적용되지 않았다. 따라서 우리는 LLM을 임상의가 설계한 운동 처방을 그대로 변환하는 제한된 번역기로 활용하는 새로운 디지털 처방 패러다임을 제안한다. 이 패러다임에서 임상의는 진료 중 환자의 손상, 목표, 환경에 맞춰 자유 텍스트 형태로 운동을 설계하고, LLM은 이를 임상적 내용은 그대로 유지하면서 실행 가능한 소프트웨어로 변환한다. 즉, 사전 정의된 템플릿에 얽매이지 않고, 임상의가 전적으로 처방을 작성한 뒤에 소프트웨어가 생성되는 역순 구조를 채택한다.

본 연구에서는 20명의 공인 물리·작업 치료사와 표준화된 환자를 대상으로 전향적 단일군 타당성 연구를 수행하여, 임상의가 직접 설계한 처방을 LLM이 자동으로 소프트웨어화하는 것이 실제 임상 현장에서 사용 가능하고 안전한지를 평가하였다. 표준화된 환자를 사용한 이유는 아직 LLM이 생성한 치료 소프트웨어의 안전성이 검증되지 않았기 때문에, 실제 환자를 대상으로 하기 전에 초기 타당성과 안전성을 먼저 확인하고자 함이다. 현재까지 의료 분야에서 임상의가 직접 설계한 처방을 LLM이 자동 생성한 사례는 보고된 바 없으며, 본 연구는 그 최초 사례가 된다.

연구 흐름은 다음과 같다(그림 1). 각 치료사는 표준화된 환자와의 세션 동안 두 개의 개별화된 상지 운동을 설계하였다(총 40개의 프로그램, 398개의 지시문). 설계된 텍스트는 LLM에 입력되어 즉시 실행 가능한 소프트웨어로 변환되었다. 이후 우리는 (i) 사용성, (ii) 맞춤화 유연성, (iii) 지시·모니터링 정확도, (iv) 안전성 인식, (v) 임상의 수용성 다섯 가지 차원에서 LLM 기반 디지털 처방 패러다임을 평가하였다.

2. 결과

2.1 LLM을 통한 개입 소프트웨어 생성의 사용성

모든 치료사가 소프트웨어 생성이 쉽고 직관적이라고 평가하였다. 평가 프레임워크는 그림 1에 요약되어 있다. 20명의 치료사는 각각 두 개의 상지 운동을 설계했으며, 이는 LLM에 입력되어 40개의 개별 소프트웨어(총 398개의 지시문)로 자동 변환되었다. 사용성 설문(5점 Likert 척도)에서 **전원(20/20)**이 “동의” 또는 “매우 동의”(평균 4.5 ± 0.5)하였다(그림 3a, b).

2.2 맞춤형 개입 수용성(유연성)

제안된 패러다임은 기존 DHI 대비 45% 더 많은 맞춤형 처방을 소프트웨어로 구현할 수 있었다. 기존 시스템에서는 사전 프로그래밍된 라이브러리에서 가장 근접한 프로그램을 선택하고, 반복 횟수·난이도 등 소수 파라미터만 조정한다. 반면 본 패러다임에서는 진료 후 자유 텍스트 형태의 처방을 LLM이 직접 소프트웨어화한다. 결과적으로 **40개 처방 전부(100%)**가 LLM 기반으로 구현된 반면, 기존 템플릿 기반 DHI에서는 **22개(55%)**만이 구현 가능했다(p < 0.01). 모든 LLM 생성 소프트웨어는 구문 오류 없이 컴파일되고 실행 가능하였다.

표 1은 기존 템플릿이 지원하지 못한 맞춤화 카테고리와 해당 카테고리가 포함된 소프트웨어 인스턴스 수를 보여준다. 가장 흔한 제한은 절차적 변형(37.5%, 15/40)으로, 예를 들어 단순한 어깨 외전·내전을 일상 생활 동작인 ‘큐브 쌓기’로 대체한 경우가 있다. 그 외에도 새로운 장비 사용(15%), 조건부 대체 규칙(15%), 보상 전략(10%) 등이 기존 템플릿에 포함되지 못했다.

2.3 지시 전달 및 모니터링 정확도

지시 전달 정확도: 398개 지시 중 **397개(99.78%)**가 원본 처방과 정확히 일치하였다. 오류가 발생한 한 건은 불필요한 반복을 포함했으나 안전 위험은 없었다.
모니터링 정확도: LLM이 생성한 소프트웨어는 각 지시의 수행 여부를 실시간으로 감지하였다. 전체 398개 지시의 모니터링 정확도는 88.4%(95% CI, 0.843–0.915)였으며, 민감도 88.6%, 특이도 87.5%를 기록하였다. 정확도 추정은 계층적 구조(운동 목표 → 치료사 → 지시) 를 고려한 일반화 선형 혼합 모델(GLMM)[

ArXiv 원문 보기

이 글은 AI가 자동 번역 및 요약한 내용입니다.

대형 언어 모델(LLM) 기반 맞춤형 디지털 물리·작업 치료 처방 시스템: 임상 현장에서의 실시간 소프트웨어 생성 및 평가

📝 Abstract

💡 Analysis

1. 연구 배경 및 필요성

2. 제안된 패러다임

3. 실험 설계

4. 주요 결과

5. 의의 및 혁신성

6. 제한점

7. 향후 연구 방향

📄 Content

초록

1. 서론

2. 결과

2.1 LLM을 통한 개입 소프트웨어 생성의 사용성

2.2 맞춤형 개입 수용성(유연성)

2.3 지시 전달 및 모니터링 정확도

목차

목차

📝 Abstract

💡 Analysis

1. 연구 배경 및 필요성

2. 제안된 패러다임

3. 실험 설계

4. 주요 결과

5. 의의 및 혁신성

6. 제한점

7. 향후 연구 방향

📄 Content

초록

1. 서론

2. 결과

2.1 LLM을 통한 개입 소프트웨어 생성의 사용성

2.2 맞춤형 개입 수용성(유연성)

2.3 지시 전달 및 모니터링 정확도

검색 시작

검색 결과 없음