현대 데이터 분석의 뿌리와 초기 컴퓨터 과학 발전
이 논문은 표 형식 데이터와 이질적 데이터의 분석 전통을 살펴보며, 탐색적 데이터 분석(EDA)이 어떻게 컴퓨터 과학·정보공학의 초기 하드웨어·소프트웨어 개발과 맞물려 현대 통계·머신러닝 기법의 토대를 마련했는지를 역사적 사례와 철학적 논의를 통해 조명한다.
저자: Fionn Murtagh
이 논문은 현대 데이터 분석이 어떻게 컴퓨터 과학과 정보공학의 초기 발전과 맞물려 형성되었는지를 역사·철학·기술적 관점에서 종합적으로 고찰한다. 저자는 데이터 분석을 ‘탐색적 데이터 분석(EDA)’이라는 히어리스틱 접근으로 정의하고, 두 가지 주요 흐름—표 형식 데이터 분석과 이질적 데이터 분석—을 중심으로 전개한다.
첫 번째 흐름은 표의 발명과 활용에 초점을 맞춘다. 18세기 과학·경제·정치 기술에서 표가 핵심 도구로 부상했으며, 이는 복잡한 계산을 체계화하고 오류를 최소화하려는 요구에 의해 촉발되었다. 찰스 배비지의 차분 엔진과 분석 엔진은 이러한 표 기반 계산을 자동화하기 위해 설계된 최초의 기계식 컴퓨터이며, 표 자체가 컴퓨터 설계의 직접적인 동기가 되었음을 보여준다.
두 번째 흐름은 대규모 이질적 데이터 수집 사례를 통해 데이터 양의 급증이 분석 체계의 부재로 인해 목표를 달성하지 못한 사례를 제시한다. VDI(독일 엔지니어 협회) 기술 사전 프로젝트는 3백5십만 개 이상의 용어를 수집했지만, 인력과 조직 구조의 한계로 40년이 걸릴 것으로 예측돼 결국 포기되었다. ‘Carte du Ciel’ 프로젝트 역시 19세기 말 전천후 별표 사진을 15년 안에 완성하려 했지만, 기술·인력 문제로 미완성에 그쳤다. 이러한 사례는 데이터 자체보다 데이터의 구조화·분류·분석 방법이 중요함을 강조한다.
철학적 배경으로는 갈릴레오가 ‘우주는 수학적 언어로 쓰여 있다’는 비유를 들며, 데이터와 정보가 언어(수학)로 해석되어야 함을 주장한다. 플라톤의 ‘기하학을 모르는 자는 입학 금지’와 같은 고전적 관념이 현대 데이터 분석의 근본 사상과 연결된다. 쿠르트 괴델은 물리학이 개념을 분석 없이 결합한다는 비판을 통해, 데이터 분석에서도 관측과 이론 사이의 설명적 연결 고리를 찾아야 함을 강조한다. 장‑폴 벤제크리는 고차원 데이터에서 의미 있는 차원을 찾아내는 작업을 ‘데이터 분석’이라 정의하고, 통계적 검증이 아닌 의미 탐색을 중시한다.
기술적 전개에서는 벤제크리의 ‘Correspondence Analysis(CA)’가 핵심 사례로 제시된다. 1962년 처음 제안된 CA는 양의 값으로 이루어진 표에 수학적 구조를 부여해, 행·열 간의 관계를 시각화하고 차원 축소·군집·분류를 하나의 통합 프레임워크로 제공한다. 이는 R.A. 피셔가 개발한 판별 분석이 변수 간 강한 관계와 사전 가정을 필요로 하는 반면, CA는 데이터 자체에서 구조를 유도한다는 점에서 탐색적 접근에 부합한다.
또한, 1960‑70년대 패턴 인식과 초기 신경망 연구가 데이터 분석과 결합하면서 비지도 학습과 유사한 방법론이 등장한다. 프랭크 로젠블랫의 퍼셉트론, 로저 셰퍼드와의 근접 분석, 다차원 척도법 등은 데이터 코딩·전처리의 중요성을 부각시켰으며, 이는 오늘날 머신러닝에서 데이터 전처리 단계가 모델 성능에 미치는 영향과 일맥상통한다.
심리측정학과 언어학 분야에서도 데이터 분석이 중요한 역할을 한다. 지능지수(IQ) 개발, 정신물리학, 코퍼스 언어학 등에서 ‘데이터를 통해 숨은 차원을 유도한다’는 접근이 사용되었으며, 이는 벤제크리의 CA가 언어 데이터 분석에 처음 적용된 배경이 된다.
마지막으로 논문은 데이터 분석이 학술 출판·기술 이전·대학과 사회의 경제적 관계와 같은 제도적 맥락에서도 중요한 역할을 한다고 언급한다. 데이터와 정보가 조직·사회·경제 전반에 걸쳐 흐름을 형성함에 따라, 데이터 분석의 역사적 이해는 현대 빅데이터·AI 시대의 정책·교육·산업 전략 수립에 필수적이다.
결론적으로, 저자는 데이터 분석이 표 형식 데이터와 이질적 데이터에 대한 체계적 방법론의 발전을 통해 컴퓨터 과학·정보공학의 초기 기술과 맞물려 오늘날의 데이터 과학·머신러닝 기반을 형성했음을 주장한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기