Title: QuotationFinder - Searching for Quotations and Allusions in Greek and Latin Texts and Establishing the Degree to Which a Quotation or Allusion Matches Its Source
ArXiv ID: 1602.08657
발행일: 2023-06-22
저자: Luc Herren
📝 초록 (Abstract)
QuotationFinder는 그리스어와 라틴어 텍스트에서 인용문이나 암시를 찾아내고, 그것이 원본과 얼마나 일치하는지 판단하기 위한 알고리즘을 개발한 논문입니다. 이 시스템은 단순 "또는" 검색으로 너무 많은 결과 또는 "그리고" 검색으로 너무 적은 결과를 반환하는 문제를 해결하고자 합니다. QuotationFinder는 다섯 가지 기준 - 일치하는 단어 수와 형태, 단어 간의 근접성, 희귀도, 그리고 순서 -을 사용하여 검색 결과를 평가합니다.
💡 논문 핵심 해설 (Deep Analysis)
QuotationFinder는 고대 그리스어 및 라틴어 텍스트에서 인용문과 암시를 찾아내는 알고리즘의 개발에 중점을 두고 있습니다. 이 논문은 현존하는 검색 기법이 갖는 한계를 극복하기 위해, 특정 단어나 구절을 찾기 위한 “또는” 검색과 정확한 일치를 요구하는 “그리고” 검색의 문제점을 해결하고자 합니다.
고대 저작물에서 인용문은 현대와 달리 따옴표나 이탤릭체로 표시되지 않으며, 복사자나 편집자가 추가할 가능성이 있습니다. 따라서, QuotationFinder는 이러한 특성을 고려하여 검색 알고리즘을 설계합니다. 저자는 원본과 대상 텍스트 간의 공통된 단어가 하나라도 있으면 암시로 판단하고, 이에 따라 인용문이나 암시를 찾아내는 데 필요한 다섯 가지 기준을 제시합니다.
첫 번째 기준은 양적 매칭입니다. 원본 텍스트에서 특정 단어가 n번 발생하면 대상 텍스트에서도 동일한 횟수만큼 일치해야 점수가 부여됩니다. 이는 Suda와 같은 특수 텍스트의 과도한 점수를 방지하기 위한 것입니다.
두 번째 기준은 형태적 매칭입니다. 원본과 대상 텍스트 간에 정확히 동일한 단어 형태가 일치하면 3점, 다른 형태로 매칭되면 2점, 어원적으로 같은 단어라도 다른 의미의 단어로 매칭되면 1점을 부여합니다.
세 번째 기준은 희귀도입니다. QuotationFinder는 상대적 희귀도를 기반으로 매칭된 단어에 점수를 부여하며, 이는 사용자가 TLG/CLCLT에서 제공하는 빈도 정보를 활용할 수 있도록 설계되었습니다.
네 번째 기준은 밀도입니다. 대상 문장 내에서 여러 개의 매칭이 있지만 원본 텍스트에서 해당 단어들이 멀리 떨어져 있으면 인용을 찾는 확률이 낮아집니다. 이에 따라, QuotationFinder는 매칭된 단어 사이에 삽입된 단어 수의 역수를 기반으로 점수를 부여합니다.
마지막으로, 순서 기준은 대상 텍스트에서 원본 텍스트와 유사한 단어 순서가 유지될수록 높은 점수를 받습니다. 이는 인용문을 찾기 위한 핵심 요소 중 하나입니다.
QuotationFinder의 알고리즘은 이러한 다섯 가지 기준에 따라 점수를 부여하고, 이를 통해 잠재적 인용문이나 암시를 순위화합니다. 개발 과정에서 다양한 시도와 오류를 거쳐 정교하게 조정되어, 정확한 인용부터 느슨한 구두 병렬까지 설득력 있는 순위를 제공할 수 있게 되었습니다.
QuotationFinder는 2008년 이후 업데이트가 중단되었지만, 그 코드는 GitHub에서 확인 가능하며, 이 논문에서 제시된 아이디어들은 새로운 인용 및 암시 검색 소프트웨어 개발에 유용하게 활용될 수 있습니다. 고대 저작물의 특성을 이해하고 이를 반영한 QuotationFinder의 접근 방식은 현대 학자들이 고전 텍스트를 분석하는 데 중요한 도구로 작용할 것입니다.
이 논문은 인용 및 암시 검색 알고리즘 개발에 있어 중요한 이정표를 제시하며, 이를 통해 고대 그리스어와 라틴어 텍스트의 이해가 한 단계 더 발전할 수 있을 것으로 기대됩니다.
📄 논문 본문 발췌 (Excerpt)
## 인용문 찾기: 고전 텍스트 검색 최적화
표준 검색 기능을 사용하여 그리스어 및 라틴어 인용문이나 암시를 찾는 것은 단순한 “또는” 검색으로 너무 많은 결과를, “그리고” 검색으로 너무 적은 결과를 반환할 수 있습니다. 고대 저자들은 인용 시 문장을 생략하는 경우가 많아, 우리는 그들이 어떤 단어를 포함했는지 미리 알 수 없기 때문입니다. QuotationFinder는 주어진 텍스트가 인용문인지 암시인지를 판단하기 위해 다섯 가지 기준을 사용하여 검색 결과를 향상시킵니다: 일치하는 단어 수와 형태, 단어 간의 근접성, 희귀도, 그리고 순서.
인용 및 암시 검색 알고리즘을 설계하는 것은 생각보다 복잡합니다. 고대에는 인용문을 표시하기 위해 따옴표나 이탤릭체를 사용하지 않았기 때문에(복사자나 편집자가 추가했을 가능성은 있습니다.), 검색 소프트웨어가 작업할 수 있는 명확한 토큰이 텍스트에 존재하지 않습니다. 특정 맥락에서 대상 텍스트와 원본 텍스트 사이에 공통된 단어가 하나만 있어도 암시로 간주될 수 있습니다. 예를 들어, 대상 텍스트가 원본 텍스트, 저자, 원래 발언자 또는 “말한 대로"와 같은 구절을 언급하는 경우입니다(Schwerdtner, 2015, p. 26-27, Plett, 1991, p. 9 참조). 저자들은 원문 그대로 인용하거나 대상 맥락에 맞게 재구성할 수 있습니다(Plett, 1988, p. 70-71 참조). 구문과 의미의 변형이 발생할 수 있습니다 - 생략, 추가, 단어 형태 변경, 대치 등(Plett, 1991, p. 9 참조). 형식적으로 인용문은 서로 매우 다릅니다(Schwerdtner, 2015, p. 25.39 참조). 인용 검색 엔진은 일반적인 인용 문법적 특징을 찾는 데 엄격해서는 안 됩니다. 가장 좋은 접근 방식은 각 기능에 점수를 매기고 잠재적인 인용문과 암시에 대해 각 기능에 대한 점수 합계에 따라 순위를 매기는 것입니다(Tischer, 2010, p. 103-106 참조).
QuotationFinder는 검색 양식에서 입력된 텍스트와 수집된 고대 텍스트(TLG 또는 CLCLT의 내용)를 비교하여 각 잠재적 인용문이나 암시에 대해 점수를 매깁니다. QuotationFinder가 사용하는 첫 번째 매개변수는 양적입니다. 원본 텍스트의 각 단어는 TLG/CLCLT에서 일치하는 횟수에 따라 점수를 받습니다. 원본 텍스트에서 단어가 n번 발생하면, 대상 텍스트에서 n번 일치할 때마다 점수가 부여됩니다. 이는 원본 텍스트에서 한 번만 발생하지만 대상 텍스트에서 여러 번 일치하는 단어는 한 번만 점수를 받는 것을 의미합니다(그렇지 않으면 Suda와 같은 특수 텍스트가 과도한 점수를 받을 수 있습니다.).
매칭 순위를 결정할 때, QuotationFinder는 원본 텍스트의 정확히 동일한 단어 형태가 대상 텍스트에서 일치하는 경우 3점을 부여합니다. 동일한 단어를 다른 형태로 매칭하면 2점이 주어집니다. 원근 또는 어원적으로 같은 단어이지만 다른 의미의 단어로 매칭되면 1점이 부여됩니다(사용자는 뿌리, 줄기, 동의어를 전용 검색 필드에 입력합니다.).
매칭된 희귀한 단어는 인용일 가능성이 훨씬 높습니다. QuotationFinder는 상대적 희귀도를 기준으로 매칭된 단어에 0점에서 1점 사이의 점수를 부여합니다(사용자는 TLG/CLCLT에서 제공한 빈도 정보를 입력합니다.).
대상 문장에 여러 개의 매칭이 있지만 원본 텍스트에서 매칭된 단어가 서로 멀리 떨어져 있으면, 인용을 찾은 확률이 낮아집니다. 검색 텍스트가 길어질수록 이 현상이 더 두드러집니다. 매칭에 대한 밀도 점수는 매칭된 단어 사이에 삽입된 단어 수의 역수 1에 1을 더한 값입니다.
대상 텍스트에서 매칭된 단어의 순서가 원본 텍스트와 더 유사할수록, 대상 텍스트는 순위에서 더 높은 위치를 차지합니다.
가. 일치하는 단어 수에 대한 점수는 해당 단어가 원문에서 위치를 벗어난 정도를 나타내는 단어 수의 역수 1에 더한 값입니다.
밀도와 순서 계산은 단순하지 않습니다. 원문의 단어가 대상 텍스트에서 어떻게 매칭될지 미리 알 수 없기 때문에(저자가 인용할 때 어떤 단어를 제외할지 모르기 때문이죠), 그들의 위치를 참조점으로 사용할 수 없습니다. 따라서 ‘인용 찾기’는 이러한 계산을 위한 기초를 마련하기 위해 잠재적 인용문의 “핵심"을 먼저 설정해야 합니다. 이를 위해 대상 텍스트에서 매칭된 단어들의 상대적 위치가 검색 텍스트의 단어들과 어떻게 유사한지 판단합니다. 개발 과정에서 시도와 오류를 통해 양, 질, 희귀성, 밀도, 순서에 대한 점수 배분이 정교하게 조정되어 정확한 인용부터 느슨한 구두 병렬까지 설득력 있는 순위를 매길 수 있었습니다. 양, 질, 희귀성의 점수를 합산하고 3으로 나눈 후 밀도의 점수를 2로 곱하여 더하고, 순서의 점수를 더하면 됩니다. ‘인용 찾기’는 2008년 이후 업데이트가 중단되었습니다. TLG가 CD-ROM 형식으로 발행되지 않고 온라인 전용 자원이 다른 데이터 형식으로 변경되었기 때문입니다(http1 - CLCLT는 이제 LLT DVD에 포함되어 있습니다 http2). 본 논문에서 제시된 일부 아이디어는 새로운 인용 및 암시 검색 소프트웨어 개발에 유용하게 활용될 수 있습니다. ‘인용 찾기’ 코드(Perl CGI)는 GitHub(http4)에서 확인할 수 있습니다.
고대에는 현대 학자들과 달리 원문을 정확히 따라야 한다는 엄격한 기준이 없었습니다(Schwerdtner, 2015, p. 34 참조). 고전 작가들은 종종 독자들이 이전 텍스트를 인용하거나 암시하고 있음을 알리는 명시적 표식을 제공하지 않습니다. 검색 소프트웨어를 설계할 때, 인용과 암시를 나타내는 다양한 특징 - 일치하는 단어 수와 형태, 단어 간의 근접성, 희귀성, 순서 등을 고려하는 것이 좋습니다. 이는 ‘인용 찾기’에서 수행된 방식과 유사합니다.