“LLM을 풀어내고, 활용하고, 되돌아보다: AI‑통합 미래를 대비한 CS 교육 혁신”
📝 Abstract
We transitioned our post-CS1 course that introduces various subfields of computer science so that it integrates Large Language Models (LLMs) in a structured, critical, and practical manner. It aims to help students develop the skills needed to engage meaningfully and responsibly with AI. The course now includes explicit instruction on how LLMs work, exposure to current tools, ethical issues, and activities that encourage student reflection on personal use of LLMs as well as the larger evolving landscape of AI-assisted programming. In class, we demonstrate the use and verification of LLM outputs, guide students in the use of LLMs as an ingredient in a larger problem-solving loop, and require students to disclose and acknowledge the nature and extent of LLM assistance. Throughout the course, we discuss risks and benefits of LLMs across CS subfields. In our first iteration of the course, we collected and analyzed data from students pre and post surveys. Student understanding of how LLMs work became more technical, and their verification and use of LLMs shifted to be more discerning and collaborative. These strategies can be used in other courses to prepare students for the AI-integrated future.
💡 Analysis
**
1. 연구 배경 및 필요성
- LLM 활용의 양면성: 기존 연구(Vadaparty 등, Margulieux 등, Smith 등)는 학생들이 LLM을 과도하게 의존하거나 잘못 활용하는 위험을 지적한다. 특히 CS1 단계에서의 무비판적 사용은 학습 효과를 저해할 수 있다.
- 교육적 공백: 대부분의 CS 교육은 LLM을 도구 수준에서만 소개하거나, 전혀 다루지 않는다. 따라서 “블랙박스”를 해체하고 내재적 원리와 윤리를 동시에 가르치는 접근이 필요하다.
2. 교육 설계 및 핵심 기여
| 기여 | 구체적 내용 | 기대 효과 |
|---|---|---|
| (1) LLM 내부 구조·파이프라인 교육 | 상위 머신러닝 강의 자료를 재구성, 토큰, 확률적 출력, 파인튜닝 등 기술적 요소 강의 | 학생이 “왜”와 “어떻게”를 이해해 도구 의존성을 감소 |
| (2) 검증·반복 중심 과제 | ‘Wannabe Palindrome’ 등 다단계 프롬프트·디버깅 과제, LLM 출력물에 대한 단위 테스트 제공 | 비판적 사고와 협업적 문제 해결 능력 강화 |
| (3) 윤리·반성 활동 | 사용량·도움 정도 보고, LLM 사용 경험 메타‑인지적 일지 작성, 편향·에너지 소비 논의 | 책임감과 사회적 영향 인식 고양 |
3. 연구 방법
- 대상·시점: 2025년 봄, 3명 강사, 4개 섹션, 총 272명(완전 응답 244명)
- 데이터: 사전·사후 설문 (정성·정량) + LLM‑보조 주제 분석(TA)
- 분석 절차:
- GPT‑4를 이용해 초기 코딩(데이터 비식별화)
- Braun & Clarke의 주제 분석 프레임 적용 → 4개 핵심 질문에 대한 테마 도출
- 토큰 언급 횟수, 검증 전략, 프롬프트 구체성 등 정량적 지표와 정성적 변화 비교
4. 주요 결과
| 지표 | 사전 | 사후 | 변화 |
|---|---|---|---|
| “LLM 작동 원리” 설명에 데이터·확률 언급 | 18% | 71% | ↑ |
| “토큰” 언급 횟수 | 24회 | 94회 | ↑ |
| 검증 전략(사실 확인·교차 검증) 사용 비율 | 22% | 68% | ↑ |
| 무검증 응답 비율 | 35% | 9% | ↓ |
| 프롬프트 구체성(구조화·세부) 언급 | 27% | 73% | ↑ |
| LLM 의존도(전체 문제 해결) 감소 | 48% | 15% | ↓ |
- 정성적: 학생들은 “LLM을 시작점으로 활용하고, 결과를 직접 디버깅한다”는 인식을 강조했으며, “윤리·편향”에 대한 토론이 학습 동기와 연결되는 것을 보고했다.
5. 교육적·학문적 시사점
- ‘블랙박스 해체’가 학습 전이 효과를 높인다 – 내부 메커니즘을 이해하면 도구를 전략적으로 사용할 수 있다.
- 검증 루프를 과제에 내재화함으로써 ‘AI‑지원 코딩’이 디버깅 능력을 약화시키는 위험을 완화한다.
- 반성적 메타‑인지 활동은 학생이 자신의 LLM 사용 패턴을 스스로 조절하도록 만든다(자기조절 학습 강화).
- 다학제적 적용 가능성: 알고리즘, 네트워킹, HCI 등 전공 영역별 LLM 위험·기회 분석을 통해 통합 커리큘럼 설계가 가능하다.
6. 한계점 및 향후 연구 방향
- 표본 편향: 대규모 공립대학의 1학년 전공 학생에 국한돼, 다른 교육 환경(소규모 대학, 비전공자)에서의 일반화가 필요.
- 장기 효과 미측정: 사후 설문은 학기 말에만 진행돼, 졸업 후 실제 산업 현장에서의 LLM 활용 행동 변화를 추적해야 함.
- 도구 다양성: 현재는 주로 GPT‑4 기반 도구에 초점을 맞췄으나, 오픈소스 LLM(LLaMA, Falcon 등)과의 비교 연구가 필요.
- 윤리·편향 교육 심화: 에너지 소비·프라이버시 논의는 언급됐지만, 구체적인 정책·가이드라인 제시가 부족함. 향후는 시뮬레이션 기반 윤리 딜레마 실습을 도입할 수 있다.
7. 실천적 제언
- 교수자 연수: LLM 작동 원리와 검증 방법을 교수가 먼저 숙달하도록 워크숍 제공.
- 과제 설계 템플릿: “LLM 입력 → 출력 → 검증 → 개선” 4단계 템플릿을 표준화해 모든 과제에 적용.
- 투명성 보고서: 학생이 제출물에 LLM 사용 비중·프롬프트를 명시하도록 하는 자동화된 보고 도구 개발.
- 학과 차원 정책: 학과 차원의 LLM 사용 가이드라인을 제정하고, 부정행위 방지를 위한 플래그 시스템을 구축.
**
📄 Content
LLM은 (하지만 대체하지는 못하는) 반복적인 문제 해결 및 검증 과정의 일부가 될 수 있습니다. 이 과정은 매우 중요합니다. 왜냐하면 이러한 모델들은 ‘새는 양동이(leaky bucket)’와 같아서 복잡한 코드를 생성할 수는 있지만 기본적인 오류를 범하기 쉽기 때문입니다. 우리의 주요 기여는 다음과 같습니다.
- LLM 내부 구조와 파이프라인에 대한 학생들의 이해를 강조하고, LLM 활용과 연계한다.
- 검증과 다중 LLM 반복을 요구하는 과제 설계한다.
- LLM의 효과적이고 윤리적인 사용에 대한 성찰을 장려한다.
우리의 접근법은 LLM을 탈신비화(demystify)하여 컴퓨터 과학(CS) 전공 학생들이 LLM이 어떻게 작동하는지 이해하고, 알고리즘 분석·설계, 소프트웨어 공학, 네트워킹, 인간‑컴퓨터 상호작용, 데이터베이스 시스템, 머신러닝 등 다양한 CS 하위 분야에서 LLM을 사용할 때의 위험과 이점을 인식하도록 돕습니다. 궁극적인 목표는 학생들이 LLM을 윤리적이고 적절하게 활용할 수 있는 역량을 기르는 것입니다.
관련 연구
LLM을 컴퓨터 과학 학생들이 어떻게 사용하는지에 대한 연구가 진행되어 왔습니다. Vadaparty 등[5]은 학생들이 CS 과제에서 LLM 사용을 허용받더라도 언제, 어떻게 사용하는 것이 적절한지 판단하는 데 어려움을 겪는다고 보고했습니다. 이러한 우려는 CS1 분야 연구에서도 나타납니다. 예를 들어 Margulieux 등[1]은 성공적인 학생들은 LLM을 활용해 학습을 증진시킬 수 있지만, 학습에 어려움을 겪는 학생들은 오히려 LLM 사용으로 인해 방해를 받을 수 있다고 지적했습니다. Smith 등[3]이 수행한 연구는 AI의 실수를 찾아내는 과제로, CS1 수업에서 학생들이 LLM이 만든 오류를 비판적으로 분석하도록 함으로써 메타인지 능력과 디버깅에 대한 깊은 참여를 촉진합니다. 우리 강좌는 이러한 연구들을 바탕으로 LLM의 효과적인 사용을 장려하고자 합니다.
강좌 개요
우리 대학은 미국에 위치한 대규모 공립 대학이며, 이 강좌는 CS 전공자를 위한 필수 과목으로 CS1을 선행 과목으로 요구합니다. 강좌는 다음과 같은 흐름으로 진행됩니다.
- LLM의 기술적 측면 소개
- 여러 컴퓨터 과학 하위 분야와의 연계 – 각 분야마다 LLM과의 상호작용, 위험·이점 등을 소개합니다.
- 과제 수행 시 LLM 활용 및 사용 방식 기술
- LLM 사용 경험에 대한 성찰을 통한 메타인지 향상
우리의 교수법은 기존 문헌에 보고된 방법과 겹칩니다[2]. 구체적으로는 수업 중 시연(demo), 액티브 러닝 전략, LLM 사용 정책 제시, LLM에 대한 명시적 교육 등을 포함합니다. LLM을 탈신비화하기 위해 고급 머신러닝 과목의 자료를 재구성하여 학생들에게 제공하고, “LLM은 어떻게, 왜, 언제 작동하는가”에 대한 커리큘럼을 구성했습니다. 학기 내내 ‘프롬프트 설계’, ‘가드레일(guardrails)’, ‘챗봇’, ‘컴퓨팅 윤리’, ‘편향(bias)’, ‘코드 생성용 LLM 활용’, ‘코딩 인터뷰 부정행위’ 등 최신 주제를 다루는 과제를 부여합니다.
수업 진행 방식
- 강의 중 시연: 강사는 인간이 직접 작성한 코드와 LLM이 생성한 코드를 함께 보여주며, 단위 테스트(unit test)도 동시에 시연합니다.
- 과제 예시: ‘Wannabe Palindrome’ 과제는 단일 프롬프트나 제로샷(zero‑shot) 해결법에 의존할 수 없도록 설계되었습니다. 성공적인 해결을 위해서는 반복적인 시도와 디버깅이 필수적입니다.
LLM 사용에 따른 함의
- 편향 위험: 훈련 데이터에 내재된 편향이 LLM에 그대로 전달될 수 있음을 강조합니다.
- 복잡한 비즈니스 규칙·현실 제약 혼동: LLM이 복잡한 규칙을 오해하거나 현실 제약을 무시할 가능성을 논의합니다.
- 인프라·지속 가능성: 인터넷 기본 개념을 가르칠 때 데이터 센터, AI 연산에 필요한 에너지, 새로운 모델 등장에 따른 지속 가능성 및 프라이버시 문제를 함께 다룹니다.
학기 전반에 걸쳐 학생들이 LLM 사용 경험을 되돌아보고 메타인지 능력을 향상시키도록 독려합니다[4].
2025년 봄 학기 시행 결과
- 강사·수강생: 3명의 강사가 4개의 섹션을 담당했으며, 총 272명의 학생이 수강했습니다.
- 조사 설계: 사전·사후 설문을 실시했으며, 이는 기관 검토 위원회(IRB)에서 면제(exempt)로 승인받았습니다. 두 설문 모두에 244명의 학생이 동의했습니다.
- 분석 방법: 설문 응답(“LLM은 어떻게 작동하나요?”, “LLM은 ___이다”, “LLM을 효과적으로 사용하려면?”, “LLM이 제공한 정보의 정확성을 어떻게 평가하나요?”)에 대해 질적 코딩을 수행했습니다.
- 초기 코딩은 GPT‑4를 활용한 LLM‑지원 주제 분석(LLM‑Assisted Thematic Analysis, TA)[6] 방식으로 진행했습니다.
- 이후 Braun & Clarke의 TA 프레임워크에 따라 테마와 패턴을 도출했습니다.
주요 발견
| 항목 | 사전 조사 | 사후 조사 |
|---|---|---|
| LLM 작동 원리 설명 | 주로 “대규모 데이터로 학습된 모델” 수준 | 데이터 훈련, 확률적 출력, 기능적 활용 등 구체적 설명 증가 |
| ‘토큰(token)’ 언급 횟수 | 24회 | 94회 |
| 전략적 사용 | 전체 문제를 LLM에 맡기는 경우 다수 | 사실 검증, 교차 검증, LLM을 시작점으로 활용하는 전략 증가 |
| 프롬프트 설계 | 구체적·구조적 프롬프트 언급 적음 | 구체적·세부적·구조화된 프롬프트 사용 증가 |
| 검증 여부 | “검증 안 함” 응답 다수 | 검증을 수행하고 반복 질문을 하는 경우 증가 |
전반적으로 학생들은 ‘블랙 박스’를 열어보고 LLM 사용 경험을 직접 체험함으로써 책임감 있는 실천을 할 수 있게 되었습니다.
결론 및 시사점
LLM을 CS 교육에 통합한 우리의 경험은 다음과 같은 교훈을 제공합니다.
- 미묘하고 책임감 있는 관계 형성 – 학생들은 LLM을 단순 도구가 아니라 전략적 파트너로 인식하게 됩니다.
- 전략적 입력·출력 검증·반복적 정제 – 구체적인 프롬프트 작성, 결과물 교차 검증, 반복적인 개선 과정을 통해 보다 신뢰성 있는 결과를 얻을 수 있습니다.
- ‘블랙 박스’ 탈피 – LLM의 내부 작동 원리를 교육함으로써 학생들은 모델의 한계와 위험을 스스로 판단할 수 있게 됩니다.
- 검증 루프와 성찰적 토론 – 과제 설계, 수업 중 시연, 성찰 토론을 통해 검증 루프를 자연스럽게 학습 과정에 녹여낼 수 있습니다.
따라서 CS 교육자는 ‘블랙 박스’를 열어주는 학습 경험, 신중히 설계된 과제, LLM 사용에 대한 성찰적 논의, 그리고 검증 루프 삽입을 통해 학생들이 자신만의 최적화된 LLM 활용 방식을 찾아가도록 지원할 수 있습니다. 이는 학생들이 앞으로의 CS 여정에서 LLM을 윤리적이고 효과적으로 활용하는 데 큰 밑거름이 될 것입니다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.