ChiWriter에서 LaTeX로의 반자동 변환 기술
본 논문은 1996년 출시된 구식 워드프로세서 ChiWriter로 작성된 수학·과학 서적을 LaTeX 형식으로 옮기는 반자동 변환 시스템을 제안한다. 자동 변환이 가능한 단순 텍스트와 수식은 기계적으로 처리하고, 복잡한 수식·특수 기호는 수동 보정 모드로 전환하는 기준을 제시한다. 구현에 사용된 언어·도구와 변환 성공률을 실험적으로 평가한다.
저자: Justislav Bogevolnov
**1. 서론**
1996년에 출시된 ChiWriter는 당시 수학·과학 서적 편집에 널리 사용된 WYSIWYG 프로그램이다. 그러나 2008년 이후 공식 지원이 중단되면서, 기존에 ChiWriter로 작성된 방대한 양의 교재와 논문을 현대적인 출판 시스템인 LaTeX로 이전하는 필요성이 대두되었다. 기존 파일은 바이너리 형태이며, 직접 편집이 불가능하고, 수식 표현이 LaTeX와 호환되지 않아 변환 작업이 큰 장애물로 작용한다.
**2. 변환 시스템 설계**
본 연구는 “chi2TeX”라는 반자동 변환 시스템을 설계하였다. 시스템은 크게 네 단계로 구성된다.
- **전처리 단계**: ChiWriter 파일을 텍스트 기반 포맷으로 추출하고, 문자 인코딩을 UTF‑8로 변환한다.
- **자동 변환 단계**: 추출된 텍스트와 수식을 사전 정의된 매핑 테이블에 따라 LaTeX 명령어로 치환한다. 매핑은 ChiWriter 내부 코드와 LaTeX 명령어 사이의 1:1 대응을 기반으로 하며, 복잡한 수식은 정규표현식(Perl)과 Delphi 파싱 엔진을 활용해 구조를 파악한다.
- **검증 단계**: 변환된 LaTeX 파일을 컴파일하고, 로그와 PDF 출력을 자동으로 분석한다. 오류나 레이아웃 차이가 발견되면 해당 구역을 표시한다.
- **수동 보정 단계**: 검증 단계에서 식별된 문제 구역을 사용자가 직접 LaTeX 코드로 수정한다.
**3. 자동·수동 전환 기준**
시스템은 두 가지 기준을 통해 자동·수동 모드를 전환한다.
1) **특수 기호 포함 여부**: ChiWriter 전용 기호(예: 복합 화살표, 특수 연산자)가 존재하면 자동 변환이 불가능하므로 수동 보정으로 전환한다.
2) **수식 복잡도**: 중첩된 분수·지수·행렬·다중 라인 수식 등 구조가 복잡한 경우, 자동 파싱이 정확히 수행되지 않을 가능성이 높아 수동 모드로 전환한다.
**4. 구현 도구**
- **MiKTeX, TeX Live, MacTeX**: 최종 LaTeX 문서 컴파일 환경을 제공한다.
- **Delphi**: GUI 기반 변환 도구와 사용자 인터페이스를 구현하였다.
- **Perl**: 정규표현식 기반 텍스트 전처리와 매핑 로직을 담당한다.
**5. 실험 및 결과**
총 11 000 페이지(약 3 500 KB)의 교과서와 논문을 대상으로 변환을 수행하였다. 결과는 다음과 같다.
- 전체 페이지 중 자동 변환만으로 성공한 비율은 97 %에 달한다.
- 복잡 수식이 포함된 페이지는 약 2 %인 200 페이지이며, 이들은 수동 보정이 필요했다.
- 특수 기호가 포함된 페이지는 250 페이지 정도로, 별도의 매핑 테이블을 작성해 자동 변환이 가능하도록 보완하였다.
- 전체 변환 작업 시간은 기존 수작업 대비 약 70 % 이상 단축되었다(예: 500 시간 → 150 시간).
**6. 논의**
완전 자동 변환이 어려운 이유는 ChiWriter가 자체적인 기호 체계와 레이아웃 엔진을 사용했기 때문이다. 반자동 접근법은 자동화가 가능한 부분을 최대한 활용하고, 인간이 개입해야 하는 복잡 구역을 명확히 구분함으로써 효율성을 크게 향상시킨다. 또한, 전환 기준을 명시적으로 정의함으로써 다른 레거시 포맷에도 적용 가능한 일반화된 프레임워크를 제공한다.
**7. 결론**
본 논문은 ChiWriter에서 LaTeX로의 반자동 변환 시스템을 구현하고, 실제 대규모 교재를 대상으로 실험을 수행함으로써 높은 변환 성공률과 작업 효율성을 입증하였다. 향후 연구에서는 기계 학습 기반 수식 인식 모델을 도입해 수동 보정 비율을 더욱 낮추는 방안을 모색한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기