실천적 윤리 NLP 교육을 통한 실무 중심 윤리 강의

읽는 시간: 9 분
...

📝 원문 정보

- Title: Practising responsibility Ethics in NLP as a hands-on course
- ArXiv ID: 2512.24825
- 발행일: 2025-12-31
- 저자: Malvina Nissim, Viviana Patti, Beatrice Savoldi

📝 초록

최근 언어 기술의 사회적 영향에 대한 관심이 증가함에 따라 자연언어 처리(NLP) 연구에서 윤리적인 측면을 다루는 교육 커리큘럼이 필요하게 되었다. 본 논문은 그로닝겐 대학교에서 개발된 "NLP의 윤리적 측면"이라는 강좌를 소개한다. 이 강좌는 NLP 연구 및 적용에 있어 중요한 윤리적인 문제들을 다루며, 학생들이 이러한 문제들에 대해 이해하고 이를 사회적으로 다양한 관객에게 효과적으로 전달할 수 있는 능력을 기르도록 설계되었다.

💡 논문 해설

1. **키 컨트리뷰션 1: 윤리적 주제를 중심으로 한 NLP 강좌** - **메타포 설명**: 이 강좌는 학생들이 NLP의 다양한 측면에서 중요한 윤리 문제에 대해 배우고 이해할 수 있도록 한다. 이를 통해 학생들은 NLP 기술을 개발하고 사용하는 데 있어 책임감 있는 의사결정을 할 수 있다. - **Sci-Tube 스타일 스크립트**: "이 강좌는 여러분이 NLP의 윤리적 측면에 대해 깊게 이해할 수 있도록 설계되었습니다. 이 강좌를 통해 여러분은 NLP 기술을 개발하고 사용하는 데 있어 중요한 윤리적인 질문들을 스스로 생각해볼 수 있습니다."
  1. 키 컨트리뷰션 2: 실습 중심의 학습 경험

    • 메타포 설명: 이 강좌는 학생들이 실제 사례를 통해 NLP 문제에 대해 직접 실험하고 배울 수 있도록 설계되었다.
    • Sci-Tube 스타일 스크립트: “이 강좌에서는 여러분이 직접 실습을 통해 NLP의 다양한 측면에서 중요한 윤리적 질문들에 답할 수 있는 기회를 제공합니다. 이를 통해 실제 문제 해결 능력을 키울 수 있습니다.”
  2. 키 컨트리뷰션 3: 사회적으로 다양한 관객에게 전달하기 위한 프로젝트

    • 메타포 설명: 이 강좌의 마지막 부분에서는 학생들이 직접 프로젝트를 수행하고, 그 결과를 일반인이나 특정 대상에 효과적으로 전달하는 방법을 배운다.
    • Sci-Tube 스타일 스크립트: “이 강좌의 마지막에는 여러분이 직접 NLP 윤리 문제에 대한 프로젝트를 수행하고, 그 결과를 다양한 관객에게 어떻게 전달할 수 있는지 배울 기회가 있습니다.”

📄 논문 발췌 (ArXiv Source)

# 서론

언어 기술이 일상 생활에 들어오면서 사회적으로 심각한 결과를 초래할 가능성이 있어, 최근 몇 년 동안 NLP 연구에서 윤리적 측면에 대한 관심이 크게 증가했다. 가장 좋은 관행들이 나타났다—예를 들어 데이터 성명서와 모델 카드—규정들도 만들어졌다—예를 들어 2020년 ACL의 윤리 코드 도입, *CL 출판물 내 윤리성 문구 포함, 윤리 검토, 편향성 문구—and 연구는 편향성, 이중 사용, 안전과 같은 문제에 광범위하게 다루고 있다. 그러나 교육 과정은 더 느린 속도로 변화하고 있다.

NLP를 하는 것은 우리가 방법론, 모델, 데이터 개발 시 선택한 것들을 반성하는 데 중요한 부분이며, 우리의 작업이 개인의 책임과 타인의 부적절 사용 측면에서 어떤 결과를 초래할 수 있는지에 대한 인식을 중요하게 만든다. 따라서 NLP 교육의 핵심 부분으로 윤리 문제에 대한 지식과 인식이 필요하다. 그러나 최근까지 언어 기술의 사회적 영향은 격주 강의나 세미나에서 논의되었으며, 전문 모듈은 거의 없었다.

“이 새로운 과목의 출현은 AI 시스템을 윤리적으로 사용하는 것에 대한 공적 인식 증가를 마무리 지은 것으로 볼 수 있습니다. 저에게는 이 강좌가 추상적인 윤리적 사고를 중요한 실용적 조언으로 압축했다는 점에서 중요했습니다. [...] 제 자신의 작업과 표준 연습이 어떤 예기치 않은 부작용을 초래할 수 있는지 적극적으로 고민하게 되었습니다. 이 강좌로 인해 윤리는 매우 실제적이고 구체적인 문제로 다가왔습니다."

그로닝겐 대학교 정보과학 학부 과정 (2021/2022) 학생의 증언.

이 격차를 메우기 위해, 우리는 “NLP의 윤리적 측면”이라는 과목을 개발하여 네덜란드 그로닝겐 대학교 예술 학부에서 제공하는 정보과학 학부 과정의 마지막 학기에 2021/2022 학년도부터 수업에 포함시켰다.[^4] 이 강좌는 경험 있는 연구자들이 윤리적 측면을 후순위로 다루는 것이 아니라, 기술이 시장에 진입하는 과정에서 연구 커뮤니티가 제안한 아이디어를 학생들에게 조기에 노출시키는 것을 목표로 한다. NLP의 윤리적 측면이 복잡하고 변화무쌍하기 때문에, 이 강좌는 비판적인 사고와 인식을 향상시키고 기술 설계 및 사용 시 암묵적으로 가정된 것들에 대한 질문을 할 수 있는 공간을 제공한다. 이를 통해 정보과학 교육의 일반적인 기술 중심 접근법을 벗어나 고정관념에 머물지 않도록 하였다. 특히 이 분야의 학문이 아직 표준화된 접근법을 따르지 않는다는 점에서 중요하다. 또한 NLP 전문가들이 윤리적 문제를 더 넓은 청중에게 효과적으로 전달하는 데 대한 책임감을 강조하였다.

우리는 포함한 자료와 개념, 그리고 이를 어떻게 구성했는지를 설명한다. 우리는 원래 설계 이후에 다양한 형식, 판본 및 대상 청중에 따라 이 과목이 어떻게 조정되었는지 상세히 서술하며 특히 실습 활동과 강좌의 마지막 프로젝트를 중점적으로 다룬다. 우리는 윤리적 고려사항을 NLP 교육 과정에 통합하려는 교육자들에게 영감을 제공하고자 한다.

수업 구조

W 주제
1 최신 윤리적 논의 소개
ML/AI 연구의 사회적 영향 및 가치
NLP와 언어 특정 도전 과제
ACL 커뮤니티 내 윤리적 관행
편향성: 과학적 및 윤리적 함의
측정 및 디바이싱 방법; 영어를 넘어서
하류 작업과 사용자 중심 응용 프로그램
이중 사용; 이해관계자; 선동성
데이터 파이프라인과 주석 처리
데이터 소유권; 심사 및 문서화; 크라우드소싱
평가, 해석, 보고
실천 (예: 랭킹 경쟁); 성능, 능력, 신뢰성

Weekly breakdown of lecture topics and seminar/assignment topics.

“NLP의 윤리적 측면” 강좌는 28-36 시간의 총 연수 시간으로 5-6 ECTS를 얻을 수 있도록 설계되었다. 이 강좌는 6주 동안 진행되며, 주당 두 가지 형태의 교육이 이루어진다: 2시간짜리 강의와 2시간짜리 세미나에 실습 활동이 포함되어 있다. 학생들은 그룹을 구성하여 주간 과제를 수행하여 강좌 주제에 대한 실제 경험을 얻으며, 추가적인 깊은 이해 또는 보완적 관점을 위해 선택 과목을 읽는다. 이 강좌는 다양한 대상 청중 (예: 전문가, 일반 공중, 학교 아이들 등)과 활발하게 상호 작용하며 토론된 내용을 정리하고 언어 기술의 윤리적 측면에 대해 어떻게 설명할 수 있는지 배우는 그룹 프로젝트로 마무리된다. 평가는 그룹 최종 제품 및 보고서와 개인 반성문으로 이루어져 각 학생의 기여를 평가한다. 학생들에게 제공되는 지침은 부록, Figure 13– 15에 포함되어 있다.

판본 및 수정사항

이 강좌는 2021/2022 학년도 그로닝겐 대학교 예술학부에서 제공하는 정보과학 학부 과정을 위해 처음 개발되었으며, NLP와 그 응용 프로그램에 대한 일반적인 이해를 가진 학생들을 대상으로 했다. 강의 형식은 높은 접근성을 보장하고 다학제 청중에게 적합하지만, 기본적인 NLP 개념과 현재 모델이 어떻게 작동하는지에 대한 익숙함을 기대한다. 이후로 이 강좌는 학부 정보과학 프로그램의 안정적 구성 요소로 자리잡았지만, 분야의 빠른 변화 속도를 따라가기 위해 내용, 과제 및 최종 프로젝트에 몇 가지 수정이 이루어졌다 (§5). 현재 학년도 (2025/2026)에는 다섯 번째 판본으로 등장할 예정이다.

이 강좌는 다른 프로그램에도 초청되어 이탈리아 파비아 대학교에서 제공하는 언어학 석사 과정(2023/2024 및 2024/2025)과 투링대학교에서 제공하는 언어 기술 및 디지털 인문학 석사 과정 (2023/2024 및 2024/2025)에 포함되었다. 파비아에서는 “급속도 강좌"로 진행되어 총 6일 동안 아침과 오후 각각 3시간씩 36시간의 수업이 진행되었다 (강의와 실습 순서). 투링대학교에서는 자료가 더 넓은 과목에 통합되었으며, 주당 두 번의 세션으로 총 6주간 진행되었다. 그로닝겐에서의 학부생들보다 덜 기술적인 배경을 가진 석사 학생들을 위해 펠리시오리 칼레지오의 “대학원 과정” 프로그램과 투링대학교의 “방문 교수” 프로그램을 통해 인근에서 강의를 진행할 수 있었다.

그로닝겐 대학교와 비교해 덜 기술적인 배경을 가진 파비아와 투링대학교의 석사 과정 학생들을 위해 언어 모델링에 대한 추가적인 기술적 배경이 포함되어야 했다. 이 강좌의 유연한 구조와 마지막 프로젝트의 비교적 개방성 덕분에 수정은 쉽고 내용은 대체로 안정적이었다.

다음 섹션 (§3)에서는 이 강좌의 주요 목표와 내용 (§3.1) 및 자료 (§3.2)에 대해 설명한다. §4에서는 실습 활동과 주간 과제를 중점적으로 다룬다. §5에서는 최종 프로젝트 및 판본별 진화에 대해 상세히 설명한다.

수업 개요

내용

이 강좌를 설계할 때, NLP 모델 개발, 배포의 전체 파이프라인뿐만 아니라 연구 실천 및 보고와 관련된 더 광범위한 고려 사항을 다루는 것을 목표로 했다 (Table 1 참조). 이 강좌는 여러 AI 연관 학문에서 공통적으로 발견되는 일반적인 문제점들 (예를 들어, 더 넓은 의미의 인공지능/기계학습 연구의 함의, 기술의 이중성)에서 시작하여 NLP 기술에 의해 제기된 특정 도전 과제들 (예: 사회인구 통계적 언어 다양성, 영어 우세)으로 진행된다. 우리는 실제 상황에서 다양한 NLP 응용 프로그램과 제품들의 영향을 논의하며, 언어 처리를 위한 방법론, 모델, 데이터 개발 시 선택한 것들에 대한 함의 및 연쇄 효과를 강조했다.

우리는 학생들이 타인의 설계 결정뿐만 아니라 자신의 결정에 대해 반성하는 능력을 기르는 것이 중요하다고 생각했기 때문에, 연구자가 결과와 기술을 평가하고 보고하는 방식에도 주목했다 (Table 1의 6주차 참조). 학생들이 NLP 전문가로 활동하거나 연구자로서 어떤 역할을 맡더라도 준비시키는 것을 목표로 하였으며, 커뮤니티 자체가 새로운 정책과 윤리 지침에 어떻게 대처하고 있는지 검토하도록 했다 (Table 1의 2주차 참조).

강의는 주요 개념과 연구 결과를 소개하는 강사와 학생들이 자신의 의견을 개발하고 의문점을 제기할 수 있는 높은 상호작용 시간이 번갈아 가며 이루어진다. 이를 통해 우리는 능동적인 참여를 통해 학생들의 호기심을 기르는 것을 목표로 했다. 예를 들어, “데이터"의 의미와 데이터 소유권의 중요성을 깊게 생각하도록 하기 위해 한 학생이 수업 중 대화를 직접 타이핑하게 했다. 현재 NLP 기술의 백본인 데이터는 일반적으로 주어진 것으로 간주되며, 현실을 미디에이션하지 않은 진실로 여겨진다. 녹음 활동 후 학생들에게 물었다: 이 전사본은 “데이터"라고 볼 수 있는가? 그렇다면 누구 소유인가—발화자, 타이핑한 사람, 또는 녹음을 요청한 강사들인가? 타이핑한 사람이 모든 것을 다 기록했는가? 학생들은 곧 타이핑하는 사람이 종종 줄바꿈, 느낌표를 넣고 철자에 대한 개인적인 선택을 하는 것을 알아차렸다. 이러한 선택은 중립적이었는가? 원래 말한 사람의 의사 표현과 일치했는가?

이 활동을 통해 학생들은 데이터를 수집하고 필터링하며 기계가 읽을 수 있는 텍스트로 변환하는 과정에 내포된 다양한 암묵적인 선택들을 깨달았다. 무엇보다, 이 과정에서 언어를 처음 생산한 사람부터 이를 처리하는 사람들까지 사람들이 널리 참여하고 있다는 것을 인식하게 되었다. 그러나 이러한 개인들은 NLP 파이프라인에서 보이지 않는 행동자로 사라져Privacy 및 콘텐츠 사용에 대한 우려도 함께 사라진다는 점을 인정하게 되었다.

자료

NLP 윤리의 기본 참고서가 없기 때문에, 우리는 과학 문헌을 넘어서 다양한 출처에서 강좌 자료를 준비했다. NLP 내에서 사회적 및 윤리적 반성은 비교적 최근에 이루어졌으며, 초기 연구는 동일한 방식으로 다루지 않았다. 다양성을 통해 비판적인 인식을 촉진하려고 했기 때문에 우리의 자료는 학술 논문부터 언론 기사, 블로그 게시물, 팟캐스트, 인터뷰, 다큐멘터리, 심지어 넷플릭스 시리즈까지 포함되었다.

이 다양성은 여러 목적을 향해 이끌었다. 첫째, NLP 분야는 매우 빠르게 변화하고 있어 많은 논의가 전통적인 학술 장소를 벗어난 플랫폼에서 이루어진다. 예를 들어, 블룸버그의 ChatGPT가 이력서 검색 시 인종 편향성을 보였다는 조사[^9]는 현재 사용 가능한 애플리케이션과 민감한 작업에 대한 최신 비판점을 제공한다. 또한 Bluesky와 X는 주요 연구자들이 주도하는 NLP 윤리에 대한 논의를 위한 주요 플랫폼으로 자리잡았다.

둘째, 우리는 학생들의 다양한 분야에서의 호기심을 자극하고 일반 대중에게 접근 가능한 다양한 보고서 유형에 노출시키는 것을 목표로 했다. 예를 들어, 넷플릭스 시리즈 History of Swear Words[^10]은 언어 차용과 재사용, 혐오 발언 감지 및 이러한 용어를 필터링함으로써 원래 용어를 다시 사용하려는 커뮤니티가 더욱 소외되는 가능성을 논의하는 데 사용된다. 에피소드에는 언어 의미, 사용 및 가치에 대한 미묘한 관점을 제공하는 힙합 가수와 서커스 코미디언이 나온다—기술적인 논의에서는 자주 결여된 관점들이다. 우리는 Coded Bias[^11]과 같은 다큐멘터리를 통해 알고리즘적 차별을 검토하고 The Social Dilemma[^12]를 통해 보다 광범위한 프라이버시와 산업 이익에 대해 논의하도록 했다. 이러한 자료는 기술과 사회 관점 사이에서 연결고리를 제공하며 학생들을 최신 동향으로 유지시키고, 더 넓은 청중을 위한 커뮤니케이션 실천에 노출시킨다—특히 마지막 프로젝트 (§5 참조)에 특히 중요하다.

주간 과제

강의는 전면적이고 정보가 집중되어 있었지만, 세미나에서는 학생들이 직접 실습을 통해 강좌 주제에 대한 이론적 지식을 연구 및 실험 실천으로 통합할 수 있는 기회를 제공했다.

예를 들어 2주차 (Table 1 참조)에 학생들은 커뮤니티 관행에 대한 과제를 받았다. 그들은 자발적으로 선택한 ACL 애널로그에서 발표된 논문의 윤리성 문구를 읽고, 책임 있는 NLP 연구 체크리스트[^13]을 충족하는지 확인했다. 수업 중에는 이 조치들이 분야에 어떤 의미가 있는지를 반영하며 이러한 입장에 대해 토론하도록 격려했다.

데이터 및 주석 처리 관행과 관련하여 학생들은 감정을 추출하기 위한 직접적인 주석 작업 과제를 수행했다. 이를 통해 학생들은 기본적인 질문들에 직면하게 되었다: 그들이 만난 감정들을 동의할 수 있는가? 감정 검출은 정말로 가능했는가? 문화적 차이점을 고려하고 있었는가? 이 작업은 과학적으로 유효한 이론을 기반으로 하고 있었는가? 이러한 방식으로 학생들은 NLP 작업 설계에서의 논란 주제와 함정, 소위 “금 표준 데이터"의 본질적인 미묘함 및 평가 결과 분석 시 적용해야 하는 주의사항에 직접 노출되었다.


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



Figure 7



Figure 8



Figure 9



Figure 10



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키