교양교육에서의 근대 국한문 혼용 신문자료 활용을 위한 텍스트 처리(text processing) 자동화 방식의 고안과 추가적인 과제

Development of a Text Processing Automation Method for Using Modern Korean-Chinese Mixed Text in General Education

Article information

Korean J General Edu. 2023;17(5):41-52
Publication date (electronic) : 2023 October 31
doi : https://doi.org/10.46392/kjge.2023.17.5.41
김선영
서울대학교 인문대학 역사학부(한국사학 전공), 강사, sunshinek@snu.ac.kr
Lecturer, Dept. of History(Korean History Major), Seoul National University
Received 2023 September 20; Revised 2023 October 03; Accepted 2023 October 16.

Abstract

기존에 한국사 교양교육 현장에서 사료 활용의 필요성은 인식되어 왔지만 사료를 곧바로 활용하기에는 난점이 있었다. 특히 학생들에게 직접 사료를 검색하며 살펴보도록 하는 방식을 취하기 위해서는 그 사료가 국역이 제공되는 것이어야 했다. 본 연구에서는 교양교육에서의 근대 국한문 혼용 신문자료 활용을 위한 텍스트 처리(text processing) 자동화 방식의 고안과 추가적인 과제에 관해 검토해보았다. 한국 근대 신문자료는 역사학뿐 아니라 정치학, 사회학 등의 제 영역에 있어 좋은 자료가 되며, 본 연구에서는 대량으로 내려 받은 텍스트를 일괄 처리하는 것에 주안점을 두었다. 근대 국한문 혼용의 신문자료를 교양교육에 활용하고자 할 때 대부분의 체언이 한자로 되어 있고 아래아 등 옛한글 요소가 다수 포함되어 있는 등, 별도의 사료 가공이 전제되지 않는다면 학생들이 독해하기 어려울 수 있다. 자동화 처리가 가능하다면, 특정 토픽과 관련된 기사들을 뽑아낸 후 가독성을 높인 기사를 제공하여 함께 읽어 나가는 방식으로 활용할 수 있고, 또한 툴 자체를 추출하여 학생들에게 활용하도록 제공함으로써 직접 필요한 사료를 찾아보고 활용하게 할 수 있다. 본 연구에서 고안한 자동화 처리 방식은 다음과 같다. 소스 데이터에서 옛한글 부분의 문자코드를 표준화하고 옛 방식의 어조사 등을 현대어 표기로 대체해주는 작업을 수행하도록 했다. 다음으로 한자 부분에 음독 한글 표기를 괄호로 병기해주는 처리를 하였다. 각기 순서들이 차례대로 수행되어 별도의 파일로 저장되도록 하였으며, 결과물을 검토해보면 상당한 가독성의 향상을 확인할 수 있다. 그러나 현 상황에서는 한계도 존재한다. 예를 들어 어떤 한자가 복수의 독음을 가지는 경우 유니코드 대표 음가가 독음으로 달리게 되는데, 그 한자 단어에 맞지 않는 독음일 경우 오히려 독해를 방해하는 경우도 있을 수 있다. 이러한 경우는 수정을 해준 후 교육에 활용해야 한다. 또한 가공하고자 하는 텍스트가 국한문 혼용이기는 하나 한문 표현의 빈도가 높을 경우 독음이 달린다고 하더라도 한문 지식이 없는 학생이 독해하기는 어려울 수 있다. 이러한 경우까지도 포함하여 매끄럽게 변환하기 위해서는 한문 형태소를 분석하는 기술의 개발이 진전될 것을 요한다.

Trans Abstract

This study aims to develop an automated text processing method for the use of modern Korean-Chinese mixed newspaper materials in liberal arts education. This article describes the process, its results, and additional tasks. In particular, the focus was placed on the batch processing of texts downloaded in large quantities. The problem with the existing computerized and serviced Korean-Chinese mixed texts is that most of the old Korean texts were computerized with PUA codes, which are not currently in Unicode standards. To process or analyze texts in computer language, it is necessary to convert these characters into standard code methods. Based on the standardized data brought in, the work of replacing the old form of words with the current Korean notation was carried out. Finally, in the text, phonological and Korean notation of Chinese characters are added in parentheses. Reviewing the results shows a significant improvement in readability. If you want to use modern Korean and Chinese newspaper materials for liberal arts education, it may be difficult unless a separate feed process is premised. When trying to use modern Korean-Chinese newspaper materials for liberal arts education, it can be difficult due to the problem of notations. Furthermore, this automated form of processing allows instructors to extract articles related to specific topics and to read articles with students that increase their readability. But as things stand, there are limits. For example, if a Chinese character has multiple consonants, there may be cases in which a Chinese character has a reading sound that does not fit the Chinese character word and rather interferes with the reading of it. These should be used for education purposes after correction. In addition, even if it is a Korean-Chinese mixed text and pronunciation is provided here, it is difficult for a student without knowledge of classical Chinese grammar to read that text if a lot of classical Chinese expressions are mixed in. This case ultimately becomes a problem that can be solved by the development of a classical Chinese morpheme analyzer. If progress is made on such things as the construction of the classic Chinese Corpus, it will be of great help in the development of history and liberal arts teaching tools.

1. 들어가며

바야흐로 4차 산업혁명의 시대를 맞아 일각에서는 4차 산업혁명의 도래가 대학교육의 형해화와 인문학의 위기를 가속시킬 것에 대해 우려하기도 하지만, 한편으로는 빅데이터, 인공지능(AI)의 시대를 맞아 새로운 기법과 기술의 접목을 통한 새로운 교육이 시도되는 측면도 있다. 종래의 한국사 교양교육의 경우 비판성과 보편성의 부족이 대체적인 문제점으로 지적된 바 있는데(윤해동, 2020: 45), 이러한 면은 빅데이터 시대를 맞아 더욱 도전을 마주할 수밖에 없다. 인간성에 관한 상상력을 자극하고 창의성 함양에 도움을 줄 수 있는 새로운 교양교육이 필요한 시점에서, 빅데이터, AI를 활용한 새로운 기법과 기술을 적극적으로 활용하는 방식이 돌파구가 될 수도 있다.

본 연구에서 주목하여 살펴볼 사료는 근대 국한문 혼용 신문자료이다. 한국사에 있어 근대 신문자료는 개항기 이래 역사학, 국어학, 사회학 제 방면의 연구에 있어 중요한 위치를 점하는 사료이다. 특히 국립중앙도서관의 <대한민국 신문 아카이브>(이하 <신문 아카이브>로 약칭한다)라고 하는 데이터베이스가 구축된 이후로는 연구자들은 상당량의 근대 신문 기사 텍스트를 편리하게 접할 수 있게 되었다.

그러나 이들 자료는 표기 언어의 특징으로 인해 곧바로 교양교육에서 활용되기에는 어려움이 있다. 한국 근대의 신문자료의 표기 문자를 토대로 분류해보면 크게 순한문, 순한글, 국한문 혼용으로 나누어볼 수 있다. 『한성순보』와 같은 순한문 신문은 원문을 곧바로 교양교육에서 활용하기는 어렵다. 다만 <신문 아카이브>에는 『한성순보』, 『한성주보』 각 기사의 데이터베이스화와 함께 국역이 제공되고 있어 이에 한해서는 참고가 가능하다. 한편 순한글 신문 『독립신문』의 경우 <신문 아카이브>에서는 번역문을 함께 제공하고 있으며, 번역문이 없는 순한글 자료의 경우라도 옛한글이 까다롭기는 하지만 한자가 없어서 전공지식이 없더라도 독해를 시도해봄 직하다. 한편 체언이 주로 한자로 표기되어있고 어조사 등에 옛한글 표기가 나오거나 현대 표기와는 다른 국한문 혼용 신문자료의 경우 가장 접근성이 낮다고 할 수 있다.

요컨대 대학 교양 수업에서 이 자료를 활용할 때의 난점은 크게 1) 옛한글로 기재된 어조사가 많아 학생들이 독해에 어려움을 겪는다는 것, 2) 어조사나 외국인명과 같은 특수한 경우를 제외하고는 대부분의 표기가 한자로 되어있다는 점을 들 수 있다. 그리고 크게 일반기사와 논설로 나눈다고 할 때 논설의 경우 한문 문법이 잔존하는 구문도 상당히 많이 보인다는 점도 특징이다. 이러한 점을 제외하고는 데이터베이스로 구축되어 있는 자료라는 점이 있고, 해당 데이터베이스의 검색 엔진에 의해 한자어 단어의 한글 검색으로도 원하는 기사를 찾을 수 있도록 되어 있기 때문에, 가독성만 향상시킬 수 있다면 교양교육 현장에서 활용할 수 있을 가능성은 커진다.

본 연구에서는 이러한 문제의식을 토대로 대량의 근대 국한문 혼용 신문자료를 알기 쉬운 현대어로 변환하는 텍스트 처리의 자동화 방법을 고안하였다. 아울러 상존하는 과제에 관해 점검하고 정리하는 기회로도 삼고자 하였다.

이러한 작업을 통해 거둘 수 있는 효과는 다음과 같다. 1) 교양교육 현장에서 학생들간의 공구적 능력의 유무나 정도의 차이에 구애를 적게 받으며 필요한 근대 신문자료를 활용할 수 있다. 2) 나아가 이 작업은 디지털역사학 분야에서 사료를 대상으로 텍스트마이닝, 토픽모델링을 시도하는 것이 이미 이루어지고 있는 상황에서, 이 기법을 근대 국한문 혼용 신문자료를 대상으로 적용할 때의 텍스트 전처리 과정에서의 난점을 해결하는 데 도움이 될 수 있다.

선행 연구 중에서는, 직접적으로 연결되는 것은 아니지만 현대어 형태소 사전 데이터를 가지고, 현대어 문장-옛한글 문장 형태의 유사도 분석을 활용해 옛한글 형태소 사전을 구축하려는 연구가 진전되어 왔다(강남오, 김재호, 20212023). 목적은 상이하지만 방법론 가운데서는 참고할 부분이 많다. 당면한 문제 해결에 상당한 아이디어를 제공한다고 할 것이다.

본 논문의 본론에서는 우선 한국사 교양교육 현장에서 사료 활용의 중요성과 난점에 대해 살펴보았다. 그리고 이러한 난점을 극복하고 근대 국한문 사료 활용을 돕는 자동화 방식의 고안으로서 옛한글 어조사의 변환 처리와 한자 단어의 음독 병기라고 하는 절차들에 관해 살펴볼 것이다. 이를 통해 이 사료들의 특성이 현대인에게 주는 어려움의 본질도 추적해볼 수 있을 것이다. 그리고 한계점으로서 유니코드 한자 음가의 문제, 두음 처리, 한자 표기 특유의 생략성 등 당면한 과제에 관해 종합적으로 정리하고 향후의 전망을 짚어보고자 한다.

2. 한국사 교양교육 현장에서의 사료 활용의 중요성과 난점

먼저 전체적인 인문학과 교양교육의 현 상황과 관련하여 간략하게 짚어볼 필요가 있다. 종래 인문학의 위기 현상이나 대학교육의 입지 축소라고 하는 현상이 자주 지적되고 있었지만 중간숙련도의 중간관리자층의 쇠퇴를 진전시키는 4차 산업혁명의 도래로 이러한 현상이 빠르게 심화될 것이 우려되고 있다(윤해동, 2022). 한국사 교양교육과 관련해서는 서론부에서도 지적하였듯, 전문 역사연구의 확대와는 별개로 충분한 비판성, 보편성을 갖추지 못하고 이루어져온 경향이 많았으며, 창의성을 함양할 수 있는 구조를 갖추는 데도 대체로 미흡함이 있었다(윤해동, 2022: 45). 이러한 면은 빅데이터 시대를 맞아 더욱 도전을 마주할 수밖에 없다.

이 시대의 교양교육의 핵심적인 역할은 창의력을 함양하는 데 필요한 상상력을 배양하는 일이라 할 수 있으며, 전공교육 현장에서 이루어지는 전문성 중심의 교육, 특수성만을 강조하는 교육, 그리고 상상력 부재의 교육에서 탈피하기 위해 비판성, 보편성, 창의성을 함양할 수 있는 새로운 교양교육이 요구되게 되었다(윤해동, 2022: 43).

한국사 교육 현장에서의 사료 활용의 측면을 살펴보자. 최현우의 연구(2015)에 따르면 사료를 활용한 역사학습을 다룬 논문이 1950년대 말 이래 꾸준히 나오고 있을 만큼 일찍부터 그 중요성이 인식되어 왔으며, 1990년대 들어서는 ‘역사적 사고력’을 주제로 한 연구의 중요한 근거로서 주목되었다. 이론으로 정립되어 있는 것을 학습하는 데 머무는 것이 아니라 당대의 문언을 학생들에게 직접 확인할 수 있도록 하는 것은 바람직할 것이다. 나아가 학생들이 사료를 직접 찾아보고 당시의 사회상을 그려볼 수 있다면 창의성 함양에도 도움을 줄 수 있다. 한편 국내 주요 역사자료 소장처의 사료 전산화 및 데이터베이스 구축 노력에 힘입어 교육 현장에서의 사료 활용성이 비약적으로 증대되었다. 교수자뿐만 아니라 학생, 그리고 인터넷이 가능한 환경의 어느 누구라도 사료 검색을 통해 역사와 관련한 궁금증을 일정 부분 해소할 수 있는 방향으로 나아가고 있다. 이러한 현상은 전체 분량에 대한 국역이 제공되는 조선왕조실록과 관련하여 두드러지게 나타난다. 이렇게 데이터베이스로 구축된 사료들을 교육에 활용할 수 있다면 매우 효과적일 것이다.

그러나 한국사 사료의 경우 대개 원문이 한문이거나 그밖에 이두문, 국한문 혼용문 등 한자가 섞여 있고 문법이 지금과 차이가 있는 경우가 많다. 전문 연구자나 전공생들에게는 정확한 원문을 통해 연구를 수행할 것이 요구된다. 그러나 전공이 아닌 교양 역사교육에 있어 사료를 활용함에 공구적인 학습이 전제되기를 기대하기는 어렵다. 그렇다고 하여 사료를 활용한 학습의 이점을 전면 포기할 수도 없다.

한국사와 관련된 대부분의 사료가 문법과 표기문자의 측면에서 현대어와 거리가 있기 때문에 비전공자들의 활용도를 높이기 위해서는 국역이나 보조할 수 있는 도구가 마련되는 것이 바람직하다. 사료에 관한 깊은 이해가 수반되지 않은 상황에서 가공된 정보를 접하는 일은 원 사료에 대한 이해를 저해할 가능성도 있지만, 이것이 원 사료 자체가 아닌 원 사료의 텍스트(text)를 토대로 ‘옮겨진’ 것임을 정확히 이해할 수 있도록 하는 사료학(史料學)적 내용의 지도가 함께 이루어진다면 바람직한 효과를 기대할 수 있다.

예를 들어 [그림 1]은 실제 2022년 1학기에 진행된 한 교양 교과목에서 과제물로서 조선왕조실록을 조사하여 보고서를 작성하여 제출하도록 한 공지의 일부분이다. 전산화라고 하는 기술적인 부분이 뒷받침되지 않았다면, 실록 국역본이 책으로 완간된 이후라 하더라도 이러한 과제는 수행이 불가능하거나 시간이 매우 오래 소요되었을 것이다. 실제 다양한 전공을 가진 학생들이 다양한 주제를 선정하여 과제를 수행하여 제출하였으며, 그 가운데 독특한 관점이나 발견도 확인할 수 있었다.

[그림 1]

S대학교 2022-1 교양 교과목 과제 출제 사례

한국사 사료를 소장한 각 기관에서 1990년대 이래 전산화 사업에 박차를 가하면서 현재 방대한 ‘원문 텍스트’들이 제공되고 있지만, 현대어 국역까지 제공하는 곳은 그리 많지 않은 실정이다. 앞에서 살펴본 바와 같이 교양교육에 공구적인 학습이 수반되기 어렵기 때문에 이러한 전산화된 자료들이 교양교육에서 활용되기 위해서는 학생들에게 자유로이 원하는 사료를 확인할 수 있는 툴이 필요해진다.

근대 신문이나 잡지에 나타나는 국한문 혼용문의 경우, 대부분의 체언을 한자로 표기하고 있는 점과 한글로 적힌 부분 중에서도 아래아 등 옛한글이 쓰이고 있는 문자가 많은 점이 해독에 어려움을 느끼게 하는 부분이다. 이로 인해 교양교육에서 이를 활용하고자 해도 장벽이 높은 사료에 해당한다. 이를 자동화 방식으로 가공하여 학생들에게 제공할 수 있다면 교육과 학습에의 활용 가능성을 기대할 수 있다.

3. 교양교육에의 활용을 위한 근대 국한문 텍스트 처리의 단계

3.1. 옛한글 텍스트의 코드 표준화 처리

먼저 옛한글 텍스트 활용에 있어서 반드시 선행되어야 하는 문제가 있는데 바로 옛한글 문자를 표준방식으로 통일시켜주는 것이다. 예전에는 컴퓨터로 옛한글을 표기하기 위해 PUA 코드를 사용했으나, 이 방식은 표준화된 방식이 아니었다(강남오, 김재호, 2023). 이 방식은 유니코드의 PUA(Private Use Area)라고 하는 영역을 이용해 옛한글을 완성자로 배열하고 이를 입출력하는 방식이었다(양왕성, 2018:227). 그러나 임의로 정의해서 사용하도록 되어 있는 영역을 활용한 것이기 때문에, 응용프로그램이나 구동 환경에 따라 다르게 보이는 경우가 발생하게 된다는 문제점이 있다. 다시 말해 호환성이라고 하는 것이 확보되지 않는 방식이었다. 유니코드 첫가끝 방식의 옛한글 표준이 정착되고 있는 현재로서는 옛한글을 입력할 때 PUA 방식을 더 이상 사용하지 않는 것이 바람직하다고 할 수 있지만, 아직까지 많은 데이터가 PUA로 구축되어 있다. 본 연구에서 활용하고자 하는 <신문 아카이브>의 근대 신문 텍스트자료 역시 대부분 PUA 방식으로 입력되어 있으며 국사편찬위원회 한국사데이터베이스에서 제공하는 근대 잡지 기사 텍스트의 경우에도 옛한글이 PUA 방식으로 입력되어 있다.1)

한편 유니코드 첫가끝 방식은 초+중+종(첫소리+가운데소리+끝소리) 각 하나씩 최대 3개의 자소만으로 한글을 구성하는 방법을 옛한글을 나타낼 때도 적용할 수 있도록 한 것이다. 옛한글에만 나타나고 현대에는 쓰이지 않는 복합자소 코드들도 추가되었다.

PUA 코드의 옛한글과 첫가끝 코드의 옛한글은 양쪽 모두의 출력을 지원하는 프로그램, 예를 들어 아래아 한글과 같은 프로그램에서는 육안으로 거의 동일하게 보인다. 그러나 그렇지 않은 환경에서는 후자와 달리 전자는 출력이 되지 않거나 아예 다른 문자가 출력되어 나오는 등 글자가 깨지는 현상이 나타난다. 첫가끝의 원활한 출력을 지원하지 않는 환경도 있어 이 경우 첫가끝 코드로 입력된 문자를 붙여 넣으면 초성 중성 종성이 분리되어 나타나기도 한다. 그러나 후자의 문제는 인터페이스의 편하고 불편함의 문제일 뿐 후자가 현재 호환성을 갖는 표준 규격이라 할 수 있다. 원 텍스트의 옛한글에 PUA 코드로 표기된 것이 포함되어 있다면 우선 원활한 텍스트 가공 처리를 위해 첫가끝 방식으로 변환해줄 것이 요구된다(강남오, 김재호, 2023:14). 무엇보다 Python과 같은 언어에서 PUA로 인코딩된 완성형 옛한글을 지원하지 않아 이를 통해 데이터 가공 처리를 하려고 하면 오류가 발생하기 때문에 기존에는 대개 전처리 과정에서 수동으로 정리하는 방식을 썼던 것으로 보인다.

첫가끝 방식으로 변환하는 방법으로는 한글과컴퓨터에서 제공하는 변환기를 이용하는 것이 있고, Python에서 구동할 수 있는 모듈을 활용하여 처리할 수도 있다. 본 연구에서는 Python 모듈의 기능을 활용하여 자동 처리되도록 하였다.2) 첫가끝 방식으로 바꾸어주라고 하는 단방향 작동 코드를 넣은 것이기 때문에 이미 기존 텍스트가 첫가끝 코드로 되어 있을 경우에도 문제없이 작동한다.

3.2. 옛한글 표기 어조사 등의 현대어 변환

이렇게 옛한글 입력 코드의 표준화 작업이 완료된 텍스트에서 옛한글 표기가 포함된 어조사 등의 부분이 현대 한국어 표기로 바뀌도록 일괄변환처리를 해주었다. 국한문 혼용 신문자료의 특성상 체언들은 거의 한자 표기가 되어 있고 ‘는’과 같은 어조사, ‘하여곰’과 같은 부사 등이 한글 표기가 되어 있다. ‘되앗스니’에는 옛한글이 포함되어 있지 않더라도 이 과정에서 ‘되었으니’로 가공해준다면 가독성이 한층 개선될 것이다.

찾은 문자열을 새로운 문자열로 대치(replace)시켜줄 수 있도록 했으며, 많은 전후쌍을 입력하고 이러한 찾아바꾸기의 반복 작업을 자동화하는 코드를 작성하였다. 한 번 실행시키면 코드에 입력된 전후쌍의 위에서부터 순차적으로 찾아바꾸기를 수행한다. 따라서 바꾸는 순서도 중요하다.

예를 들어 ①‘하야곰’ → ‘하여금’, ②‘하야’ → ‘하여’로 바꾸어주기 위해서는 ①→② 순서대로 되어야 하며 순서가 바뀌어 코딩되면 ‘하야곰’은 선행 찾아바꾸기의 영향으로 ‘하여곰’으로 바뀌어 있기 때문에 그보다 늦게 읽어들이는 ‘하야곰’을 ‘하여금’으로 바꾸라는 명령어를 통해 ‘하여금’으로 바뀔 수 없다. ‘하야곰’과 같은 예와 같이 음절이 긴 단어를 선행하여 바꾸어주는 것이 효율적이다.

변환 전후쌍의 작성은 『황성신문』 등의 원문들을 가지고 기초적으로 구축, 적용한 후 남는 것을 또다시 추가하는 작업의 반복을 통해 수행하였다. 이와 같은 작업을 통해 변환되지 않고 남는 예가 줄어들고 변환이 적용되는 정도가 높아진다. 본 연구에서 적용한 전후쌍을 예시로 제시하면 <표 1>과 같다.

<표 1>

변환 전후쌍 예시

현대어를 연결시키는 과정에서 판단이 어려운 경우 <신문 아카이브>에서 제공하는 순한글 신문 『독립신문』의 번역 자료가 참고가 될 수 있다. <표 1>과 같은 변환 전후쌍은 구축만 해두면 앞으로는 가공할 자료를 입력만 하면 되고 계속해서 쓸 수 있다는 장점이 있다. 그러나 이 변환 전후쌍을 추출한 근거가 된 자료와 동시대 자료에 한해 활용성이 있는 것이며 이것을 중세국어 자료 등으로 확장해서 활용하는 것이 담보되는 것이 아니라는 점은 명확히 할 필요가 있다.

이렇게 작성한 코드를 1909년 9월 24일자 『황성신문』 기사에 적용하여 가공하면 다음 [처리 전]의 텍스트가 [처리 후]와 같이 도출된다.

[어조사 등 변환 처리 전] ⊙(華族女校의 大學部)日本의 華族女學校에셔는 來九月붓터 女子大學部를 新設할 터인데 其學年을 三個年으로 하야 몬져 文學部ᄅᆞᆯ 置하고 其他 學科는 次次 增設한ᄃᆞ더라

[어조사 등 변환 처리 후] ⊙(華族女校의 大學部)日本의 華族女學校에서는 來九月부터 女子大學部를 新設할 터인데 其學年을 三個年으로 하여 몬져 文學部를 置하고 其他 學科는 次次 增設한다더라

‘몬져’와 같은 것은 ‘먼저’로 수정해주면 더욱 좋겠지만 굳이 변환쌍에 포함시키지 않아 변화가 없다. 그밖에는 매끄럽게 읽히는 문장이 된 것을 확인할 수 있다.

3.3. 한자 표기의 한글 병기 처리

위와 같이 가공한 후에 또한 별도의 Python 모듈을 활용하여 한자 표기를 한글 병기 처리해주도록 하였다. 앞에서 살펴본 1909년 9월 24일자 『황성신문』 기사를 예로 들어보면 아래와 같이 처리되어 나온다.

⊙(華族女校(화족녀교)의 大學部(대학부))日本(일본)의 華族女學校(화족녀학교)에서는 來九月(내구월)부터 女子大學部(여자대학부)를 新設(신설)할 터인데 其學年(기학년)을 三個年(삼개년)으로 하여 몬져 文學部(문학부)를 置(치)하고 其他(기타) 學科(학과)는 次次(차차) 增設(증설)한다더라

“女子大學部(여자대학부)”에서 보이는 것처럼 한글 병기 처리를 수행하는 모듈상의 기능으로 두음법칙을 자동으로 처리하도록 되어 있는 것은 유용하다. 그런데 원 데이터에 별도로 손을 대지 않은 상태에서 바로 처리한 것이기 때문에, 문맥상 분기되는 부분이라 하더라도 원 사료에 띄어쓰기 처리가 되어있지 않고 한자들이 이어지는 부분이라면 기계는 이어진 한 단어로 인식하여 두음법칙을 적용하지 않아 발음이 달라지는 문제가 있다. 예를 들면 “淸國陸軍部”의 경우 “청국륙군부”로 읽는 식이다. 이것은 원문을 내려받고 바로 처리 단계로 들어가지 않고 적절하게 띄어쓰기를 부가해주는 전처리 작업을 진행해준다면 개선될 수 있다. 그러나 띄어쓰기를 할 부분은 아니지만 형태소는 나눠지기 때문에 앞에 띄어쓰기 문자가 없더라도 두음법칙이 적용될 필요가 있는 경우가 있다. “○○여학교”의 사례가 그러할 것이다. 이것은 형태소 분석까지 함께 이루어질 때 개선이 가능한 부분으로 다음 장에서 전망으로 살펴보고자 한다.

필요에 따라 한자를 남기지 않고 한글 독음으로 대치하는 명령어 적용도 가능하다. 예를 들면 “近頃俄國에셔 大學生의 騷動이 又有하얏슴은 已報하얏거니와 去月二十八日上海에 “라는 문장이 “근경아국에서 대학생의 소동이 우유하였슴은 이보하였거니와 거월이십팔일상해에”라고 하는 식으로 출력되도록 할 수 있다. 당시 사료의 특성인 현재 쓰이지 않는 한자어 단어의 빈출, 원문 또는 그를 토대로 구축된 텍스트의 띄어쓰기가 현대어와 같지는 않은 문제 등으로 인해 의미 파악이 오히려 어려워지고 가독성도 떨어지는 것을 확인할 수 있었다.

4. 다량의 데이터에 적용한 가공 결과물의 검토 및 과제

4.1. 자동화 처리 구조와 가공 결과물 검토

본 연구의 목적은 많은 데이터를 뽑아냈을 때 처리를 자동화하는 방식을 고안하는 데 있다. 개별 건 단위라면 교수자가 직접 한자 음가를 달아주고 띄어쓰기가 필요한 곳은 분리해주는 것이 가장 정확한 결과물을 확보할 수 있는 방법이다. 그러나 본 연구는 예컨대 특정 키워드로 검색된 다량의 기사를 한꺼번에 가공하여 교양교육에 효율적으로 활용할 수 있도록 하는 것까지를 관심사에 두고 있다. <신문 아카이브>의 경우 검색 결과를 최대 100건씩 보는 것이 가능하며 선택된 기사를 csv파일로 내려받을 수 있다.

본 연구에서는 이것을 그대로 불러들여 앞 장에서의 가공 단계들을 모두 거쳐 별도의 파일로 저장될 수 있도록 고안하였다. 또한 내려받은 원 파일에는 불필요한 열들이 많아 필요한 열을 출력하도록 본 연구에서는 [제목], [한글 신문명], [발행일], [신문 주제], [본문 텍스트] 열들에 한해 출력되도록 했다. 불러온 직후 빈 셀에는 ‘원문없음’이라고 채워 넣는 처리를 하였다. 그런데 <신문 아카이브>에서 연도순으로 설정하여 검색 결과값을 정렬한 후에 데이터를 내려받더라도 그 범위로 내려받아지기는 하지만 내려받아진 csv 내에서는 발행일순으로 정렬이 되어있지 않다.3), 따라서 가공을 거치고 저장하기 전에 각 행들을 [발행일]을 기준으로 정렬하는 처리를 하였다. 전체 과정을 구조도로 나타내면 [그림 2]와 같다.

[그림 2]

근대 국한문 혼용 텍스트 가공 처리 구조도

근대 기사 검색 결과를 내려 받은 csv 파일을 가지고 본 구조에 따라 자동 가공 처리를 한 출력 화면을 그림으로 제시하였다([그림 3][그림 4] 참조). 전체적으로 살펴보면 ‘且淸國에’가 ‘且淸國(차청국)에’로 출력되고 ‘計畫하니’가 ‘計畫(계화)하니’로 출력되는 등의 문제가 확인되기는 하지만 가독성은 크게 증대된 것을 볼 수 있다. 키워드로 검색한 후 확보되는 자료들을 이렇듯 일괄 가공 처리한 후에 사료들을 학생들에게 곧바로 소개하는 것이 가능해진다고 할 수 있다. 이렇게 구성한 자동화 코드를 프로그램으로 추출하여 학생들에게 제공하면, 직접 원하는 사료를 검색한 결과 데이터를 간단한 가공을 거쳐 학습에 참고하게 할 수 있고 나아가 학생들에게 이 사료들을 활용한 과제를 부여할 수도 있다.

[그림 3]

‘大學’으로 검색하여 내려받은 근대 신문기사의 원 데이터

[그림 4]

가공 후 생성된 파일을 열었을 때의 화면 (각각 MacOS 환경에서와 Windows 환경에서의 작동례)

한편 같은 포맷을 활용하여 국사편찬위원회 한국사데이터베이스에 구축되어 있는 <한국근현대잡지자료> 원문 자료에도 활용하여 보았다. 『대한자강회월보』 제11호(1907년 5월 25일) 기사를 가지고 위의 방식을 적용해보면 아래와 같이 가공되어 나온다.

<한국근현대잡지자료에의 적용례>

[가공 처리 전] 外交談 韓基準

(전략) 夫個人 交際에 德義와 信用을 尙치 아니하는 者ㅣ 有하면 반다시 社會의 惡評을 得하야 其 前進의 道가 阻塞하이 多有하나 至於國際하야는 此와 相反하니 卑辭厚禮도 詭譎이 自在하며 强梗手段에도 詭譎이 常存이라 夫何德義가 有하며 信用이 有하리오. (후략)

[가공 처리 후] 外交談(외교담) 韓基準(한기준)

(전략) 夫個人(부개인) 交際(교제)에 德義(덕의)와 信用(신용)을 尙(상)치 아니하는 者(자)가 有(유)하면 반다시 社會(사회)의 惡評(악평)을 得(득)하여 其(기) 前進(전진)의 道(도)가 阻塞(조새)함이 多有(다유)하나 至於國際(지어국제)하여는 此(차)와 相反(상반)하니 卑辭厚禮(비사후례)도 詭譎(궤휼)이 自在(자재)하며 强梗手段(강경수단)에도 詭譎(궤휼)이 常存(상존)이라 夫何德義(부하덕의)가 有(유)하며 信用(신용)이 有(유)하리오. (후략)

“至於國際(지어국제)하여는”, “夫何德義(부하덕의)가 有(유)하며 信用(신용)이 有(유)하리오”과 같이 한문 문투가 남아 있는 부분은 아무리 독음이 병기되었다 하더라도 한문 문법에 익숙하지 않은 학생들에게는 독해를 어렵게 하는 요소이다. 이 경우는 적당하지 않지만 잡지자료 중에도 보다 문어체가 희박해진 텍스트에 대해서는 적용해볼 수 있겠다.

한편 이번의 가공 처리는 최대한 번거로움을 막고 자동화하는 방식을 고안하는 것을 목표로 하였기 때문에, 어조사 등을 현대어로 다듬는 처리, 한자와 한글의 병기 처리가 코드 내에서는 단계적으로 일어나더라도 단계별로 별개의 파일이 생성되거나 단계적인 조작을 필요로 하도록 만들지는 않았다. 다만 경우에 따라서는 한자 병기는 불필요하지만 국한문 혼용 텍스트에서 한글 부분만 현대어로 가공된 텍스트를 확보하는 처리가 도움이 되는 연구 분야(예를 들어 근대 국한문 혼용 자료를 활용한 텍스트마이닝, 토픽 모델링)를 생각해볼 수 있다. 이 경우 해당 코드 부분까지만 활용한다면 텍스트 전처리에 활용할 수 있을 것이다.

4.2. 당면한 과제와 전망

이제 앞서 언급된 몇 가지 지점들을 포함하여 문제가 되는 부분을 정리해보고 가능한 개선 방안을 모색해보자 한다.

먼저 한자에 독음을 병기하는 과정에 있어 ‘計畫하니’가 ‘計畫(계화)하니’로 출력되는 문제에 관해 살펴본다. 우선 ‘계획’의 한자는 『표준국어대사전』에서는 ‘計劃’와 ‘計畫’ 모두 쓸 수 있다고 되어 있으며, ‘畫’이라는 한자가 ‘화’, ‘획’ 등 복수의 음가를 갖는다는 사실은 한자에 관한 지식이 있는 사람들에게는 학습된 것이다. 때문에 ‘計畫’이라는 단어를 보면 자연스럽게 계획이라고 읽는다. 그러나 ‘畫(756B)’라는 문자는 유니코드 체계 내에서 ‘화’라는 음가를 갖는 문자이기 때문에 ‘화’라는 음가가 부여되고 있는 것이다. ‘計畫(계화)’라고 나오는 것은 오류라기 보다 별도의 학습을 거치지 않은 기계의 입장에서는 당연한 결과라고 할 수 있다. 앞에 ‘計’가 붙은 ‘畫’일 때는 이를 ‘획’으로 읽도록 하는 방법을 모색한다면 결과물의 완성도를 높일 수 있다.

이러한 경우를 보이는 사례는 더 있다. 예를 들어 ‘度支部’를 ‘탁지부’로 읽어야 하는데 기계는 ‘도지부’로 읽는 식이다. 빈출되거나 우선도가 높은 것은 변환쌍으로 작성하여 후처리하는 방식을 생각해볼 수 있다. 사람의 손이 많이 간다는 단점이 있다.

거시적으로는 자동화 방식도 생각해볼 수 있다. 통합한자 ‘度’(5EA6)는 1차적 음가가 ‘도’이기는 하지만 ‘탁’도 부여되어 있는데, 이렇듯 여러 음가가 부여되어 있는 한자가 포함된 단어는 그 음가를 넣은 단어의 발음을 각각 사전에서 찾아보고 일치하는 쪽으로 채택하는 방법이 있을 수 있다. 하지만 원 사료의 특성상 한자어 단어들이 띄어쓰기 없이 붙어서 입력되어 있을 가능성이 높은데, 이것을 가급적 번거로운 전처리 없이 쓰고자 한다면 자연어 처리에서 형태소 분석이 이루어질 수가 있어야 한다는 것이다. 한문 문법이 개재되어 한자어들이 이어져 있는 경우가 아니라 단순 병렬로 이어지고 있는 경우라면 Mecab과 같은 형태소 분석기를 활용하여 해결을 시도해볼 수 있다. 즉 띄어읽기를 개선하는 데 활용해봄 직하지만, 작동이 완전하지 않기 때문에 띄어 쓰지 말아야 할 곳에 분리가 일어날 경우 더욱 독해를 혼란스럽게 할 가능성도 있어 신중한 활용이 필요하다.

어느 방식이든 독음 달기의 개선 처리를 고민하는 것이 필요하다. 학습을 돕기 위한 도구가 ‘度支部’와 같이 역사 속 중요한 개념의 발음을 잘못 학습하게 만드는 결과로 이어져서는 안 될 것이기 때문이다. 표준음가가 아닌 독음이 포함된 근대 빈출 단어를 따로 설명해주거나 프로그램 구성 단계 중 저장 직전 단계에 찾아 바꾸기 처리를 적용해주는 방법이 있다. 예컨대 ‘度支部(도지부)’를 ‘度支部(탁지부)’로 수정하는 식이다.

그리고 드문 경우이기는 하나 위의 가공을 거쳤을 때 아무런 독음도 달리지 않는 한자가 발견된다. 이것은 해당 한자가 유니코드 체계 내에서 한글 음가가 없는 경우에 해당한다. 허철(2021:171)에 따르면 2016년 기준으로 ‘유니코드한자검색시스템’의 총 42,711자 중 음가 정보가 표시된 것은 20,629자로, 일부만 음가가 부여되었고 이외의 한자는 한국 음가가 부여되지 않았음을 의미한다. 일반적으로 사용되는 대부분의 한자는 거의 음가가 부여되어 있지만, 간혹 활용시에 음가가 달리지 않은 경우가 보일 수 있는 것이다.

다음으로, 가공하고자 하는 국한문 혼용 텍스트가 실질적으로는 한문투의 표현 단위를 유지하고 있는 경우의 문제에 관해 살펴보고자 한다. 이러한 현상은 신문기사의 논설이나 근대 시기 잡지에서 많이 볼 수 있으며 앞의 절에서 실제 잡지자료 가공을 시도해보았다. 이 부분을 해결하기 위해서는 이제 한문 형태소 분석기의 화제로 넘어갈 수밖에 없다. ‘형태소 분석’이라는 표현은 앞의 서술에서도 여러 차례 언급한 것인데, 주어진 문장을 형태소 단위로 분할하고, 각기 품사 등의 정보를 부여하는 처리를 말한다. 기계번역 등 고도화된 자연언어 처리의 대부분이 그 전단계에서 형태소 분석을 행하게 되며, 자연언어 처리의 기초기술의 하나가 되고 있다(師茂樹, 2018:42). 기계를 가지고 한문을 번역하는 것으로 말하자면, 형태소가 분석되는 것이 가능해야 현대어로 번역하는 것도 가능해지는 것이다. 기계가 문장을 분석한다는 것은 사전에 등록된 것을 활용하는 것만 가지고는 불충분한데, 한 개의 단어를 이룰 수 있는 복수 문자열 조합이 경우에 따라서는 또 다르게 분할되어 묶일 수도 있기 때문이다. 이같은 경우 어느 분할이 보다 타당한지 판단하기 위해 이용되는 것이 코퍼스이다. 코퍼스를 이용해 어느 것이 빈도가 높은지, 품사간의 연결에 관해서도 어느 쪽이 확률이 높은지 통계적으로 판단하여 처리하게 할 수 있다(師茂樹, 2018:43).

앞에서 다룬 예문 중 “至於國際(지어국제)하여는”이라는 문구는 엄밀하게는 ‘至’와 ‘於’와 ‘國際’라는 형태소를 분리한 후에 한문 문법의 순서대로 읽어주어야 뜻을 새길 수 있다. 한국어, 일본어, 중국어 등 현대어는 각 언어별로 형태소 분석기가 개발되어 이용되고 있지만, 한문(고전중국어)에 있어서는 개발을 위해 오랫동안 연구가 진행되고 있다. 한문 사료는 개별 한자가 여러 의미, 여러 품사, 다양한 문법적 기능을 가지는 문제나 문맥에 따라 특수하게 읽어주어야 하는 것이 있는 등 기계를 통해 분석하는 것이 어려운 문법에 해당한다. 한자 문화권에 속했던 다른 나라들에 비해 한문 형태소 분석이나 코퍼스 구축 등이 늦은 편에 속하기는 하지만 근래 승정원일기 AI 기계번역 기술이 개발되면서 관련 연구가 진전을 보이고 있기 때문에 그 과정에서 축적되는 빅데이터의 활용 가능성, 또 이를 통해 한문 형태소 분석 도구가 개발될 것에 기대를 걸어볼 수 있다.

한편 이번에 고안한 자동화된 텍스트 처리 방식의 중반까지를 적용하고 약간 다듬는다면 근대 국한문 혼용 자료를 토대로 분석을 하고자 할 때 도움이 되는 도구로 쓸 수 있을 것이다. 국한문 혼용 자료를 토대로 텍스트마이닝, 토픽 모델링을 적용하여 의미를 추출하는 연구는 이미 시도되어 왔다. 그 과정에서의 유용한 도구가 있다면 좋겠지만, 한글의 경우 교착어의 특성을 갖기 때문에 영문 처리 과정과 달리 별도의 자연어 처리가 필요한데 더욱이 근대 텍스트 자료를 대상으로 한 상용화된 자연어 처리기나 형태소 분석기는 존재하지 않는 실정이다(정유경, 2020: 141). 기존 연구들에서는 대체로 어조사를 텍스트 전처리(text preprocessing) 과정에서 불용어(stopwords) 처리를 하여 분석 대상에서 제외하는 경우가 있었다. 한편 전처리 단계에서 현대어로 자연스러운 조사로 수정해준 후에 처리를 하는 방식을 취하는 연구들도 찾아볼 수 있다. 만일 이를 대량의 데이터를 자동으로 처리하고 무엇보다 Python에 적합하지 않은 PUA 코드 문제를 해결하는 방식과 통합하여 패키지로 처리한다면 전처리가 보다 수월해질 것이다.

끝으로 한자문헌정보의 형태소를 분석하는 방면의 개발이 진전된다면 독음을 단 결과물을 만들어낼 때 또한 보다 의미에 맞게 띄어쓰기가 이루어진 결과물을 얻음으로써 완성도가 높아질 수 있을 것이다.

5. 나오며

기존에 한국사 교양교육 현장에서 사료 활용의 필요성은 인식되어 왔지만 사료를 곧바로 활용하기에는 난점이 있었다. 특히 학생들에게 직접 사료를 검색하며 살펴보도록 하는 방식을 취하기 위해서는 그 사료가 국역이 제공되는 것이어야 했다.

본 연구에서는 교양교육에서의 근대 국한문 혼용 신문자료 활용을 위한 텍스트 처리(text processing) 자동화 방식의 고안과 추가적인 과제에 관해 검토해보았다. 한국 근대 신문자료는 역사학뿐 아니라 정치학, 사회학 등의 제 영역에 있어 좋은 자료가 되며, 본 연구에서는 특히 대량으로 내려 받은 텍스트를 일괄 처리하는 것에 주안점을 두었다. 근대 국한문 혼용 신문자료와 관련하여 원문 이미지와 텍스트 등을 제공하는 대표적인 사이트는 국립중앙도서관 <대한민국 신문 아카이브>이다. 또 신문자료는 아니지만 근대 국한문 혼용체로 이루어진 잡지자료들을 제공하는 곳으로서 국사편찬위원회 한국사데이터베이스를 들 수 있다. 데이터를 토대로 옛 방식의 어조사 등을, 그것에 대응되는 현대어 표기 문자열로 대체해주는 작업을 자동으로 수행하도록 했다. 이 과정을 거쳐 체언들은 한자로, 어조사 등은 현대어 표기에 가깝게 가공될 수 있다. 끝으로 한자 부분의 음독 한글 표기를 괄호로 병기해주는 처리를 하였다.

처리 과정에서는 원 자료에서 필요한 열들만을 택하여 가져오는 것이나 발행일을 기준으로 오름차순 정렬을 하는 처리가 이루어지도록 했다. 마지막 단계까지 처리가 되면 결과물은 자동적으로 별도의 csv파일로 저장되어 나온다. <신문 아카이브>에서 100건의 기사가 포함된 검색 결과를 csv 파일 형태로 내려받고 이 프로그램에서 불러와 실행시키면, 앞서 서술한 단계들을 차례로 수행하고 가공이 완료된 별도의 csv를 얻을 수 있다.

결과물을 검토해보면 상당한 가독성의 향상을 확인할 수 있다. 근대 국한문 신문자료를 교양교육에 활용하고자 할 경우 별도의 사료 가공이 전제되지 않는다면 어려울 수 있다. 본 자동화 처리를 활용하면 특정 토픽과 관련된 기사들을 뽑아낸 후 가독성을 높인 기사를 제공하여 함께 읽어 나가는 방식으로 활용할 수 있을 것이다. 또 이렇게 구성한 자동화 코드를 프로그램으로 추출하여 학생들에게 제공하면, 직접 원하는 사료를 검색한 결과 데이터를 간단한 가공을 거쳐 학습에 참고하게 할 수 있다. 나아가 학생들에게 이 사료들을 활용한 과제를 부여하는 것도 가능해진다.

현 상황에서는 한계들도 존재하며, 어떤 것은 임시방편으로 해결이 가능하지만 어떠한 것은 난점으로 존재하는 부분도 있다. 궁극적으로는 한문 형태소 분석 기법의 개발로 해결될 수 있는 문제가 된다. 현재 추진되고 있는 한문 코퍼스 구축 작업과 같은 것들이 진전을 본다면 교양 역사교육 교구 개발의 방면에서도 큰 도움이 될 것이다. 기술적인 측면에서 공학계와 인문학계의 적극적인 협업을 통한 연구가 필요해진다고 할 것이다.

References

1. Choi H. 2015;The actual usage and plan of the 『Annals of the Joseon Dynasty』 on Korean history education. History Education Review 56:207–232. https://doi.org/10.17999/SOHE.2015.56.07.
2. [최현우. (2015). 국사교육에서 조선왕조실록의 활용 실태와 방안. 역사교육논집, 56, 207-232. https://doi.org/10.17999/SOHE.2015.56.07].
3. Heo C. 2021;A solution to the problems of the chinese characters in the process of the Chinese classics DB. Journal of Korean Classics 59:163–194. http://dx.doi.org/10.15752/itkc.59..202111.163.
4. [허철. (2021). 한문고전정보화 속의 ‘漢字’ 처리의 난점과 해결방안에 관한 일견. 民族文化, 59, 163-194, http://dx.doi.org/10.15752/itkc.59..202111.163].
5. Hur S, Kim H. J, Jeong Y. K. 2022;A semantic network analysis of the Collective subjects:In the Daehan empire period:Focused on the editorial Articles from the Huangseong- Shinmun and the Daehanmaeilsinbo. Daedong Munhwa Yeon'gu 119:245–285. https://doi.org/10.18219/ddmh..119.202209.245.
6. [허수, 김혜진, 정유경. (2022). 대한제국기 ‘집단적 주체’의 의미망 -《황성신문》과 《대한매일신보》의 사설 기사를 중심으로. 大東文化硏究, 119, 245-285. https://doi.org/10.18219/ddmh..119.202209.245].
7. Jeong Y. K., Ban J. 2019;An experimental approach of keyword extraction in Korean-Chinese text. Journal of the Korean Society for Information Management (JKOSIM) 36(4):7–19. https://doi.org/10.3743/KOSIM.2019.36.4.007.
8. [정유경, 반재유. (2019). 국한문 혼용 텍스트 색인어 추출기법 연구 -시사총보를 중심으로. 정보관리학회지, 36(4), 7-19. https://doi.org/10.3743/KOSIM.2019.36.4.007].
9. Jeong Y. K. 2020;Analyzing topic trends of news articles using structural topic modeling and time series network analysis in hwangsungsinmun. Critical Studies on Modern Korean History 43:133–159. https://doi.org/10.36432/CSMKH.43.202004.4.
10. [정유경. (2020). 텍스트의 계량 분석을 활용한 근대전환기 신문의 시계열적 주제 분석법 -황성신문 논설을 대상으로. 역사문제연구, 43, 133-159. https://doi.org/10.36432/CSMKH.43.202004.4].
11. Kang N. O., Kim J. H. 2021;A study on technique of constructing morphological dictionary for old-Korean language. Journal of Knowledge Information Technology and Systems (JKITS) 16(6):1305–1313. https://doi.org/10.34163/jkits.2021.16.6.018.
12. [강남오, 김재호. (2021). 옛한글 형태소 사전 구축을 위한 기법 연구. 한국지식정보기술학회 논문지, 16(6), 1305-1313. https://doi.org/10.34163/jkits.2021.16.6.018].
13. Kang N. O., Kim J. H. 2023;A study on technique of constructing old-Korean morphological dictionary by using old-modern Korean parallel material. Journal of East-West Humanities (JEWH) 64:7–28. https://doi.org/10.37498/HSEW.2020.08.64.7.
14. [강남오, 김재호. (2023). 옛한글⋅현대한글 병렬 자료를 활용한 옛한글 형태소 사전 구축 기법 연구. 동서인문학, 64, 7-28. https://doi.org/10.37498/HSEW.2020.08.64.7].
15. Moro S. 2018;What is morphological Analysis? Journal of JAET 18:42–45.
16. 師 茂樹. 2018;形態素解析とは何か. 漢字文獻情報處理研究 18:42–45.
17. Yang W. 2018;A study on changes in the old Hangul code. Korean Studies Quarterly 41(4):213–238. https://doi.org/10.25024/ksq.41.4.201812.213.
18. [양왕성. (2018). 옛한글 코드의 변천사. 정신문화연구, 41(4), 213-238. https://doi.org/10.25024/ksq.41.4.201812.213].
19. Yun H. 2022;General education in university of Korea and Korean history. Korean Journal of General Education 16(1):39–50. https://doi.org/10.46392/kjge.2022.16.1.39.
20. [윤해동. (2022). 한국 대학의 한국사 교양교육과 역사학. 교양교육 연구, 16(1), 39-50. https://doi.org/10.46392/kjge.2022.16.1.39].

Notes

1)

양쪽 모두 본 논문 작성 시점(2023년 9월) 현재 기준으로 확인하였다. 향후 첫가끝으로 변환되어 DB에 탑재, 제공된다면 이러한 부분의 고민이 줄어들 것이며 이용자들이 데이터를 다루기 위해 전처리를 하는 과정이 보다 간소화될 것이다. Python에서는 PUA 방식의 완성형 옛한글을 지원하지 않는다.

2)

그런데 예를 들어 ‘하야’를 넣는다면 ‘하’라는 부분만을 첫가끝 코드 문자로 변환해주고 ‘야’는 그대로 둔다면 좋겠지만 해당 모듈은 현대 한글에서 쓰이는 ‘야’까지도 정확하게는 ‘ㅇ’과 ‘ㅑ’로 분리된 ‘야’라는 글자로 바꾸어버린다는 문제가 있다(집필 현재 기준). 이에 변환 후 전체 텍스트를 대상으로 자음모음 분리 한글깨짐 현상을 해결해주는 NFC(Normalization From Composition) 방식의 정규화(normalize)를 수행하도록 하는 코드를 추가하여 해결했다.

3)

내려받은 파일을 열어보면 한글 신문명의 가나다순으로 정렬되어 있다. 향후 개선될 가능성도 있을 것이므로 2023년 9월 현재 집필 시점 기준임을 밝혀둔다.

Article information Continued

[그림 1]

S대학교 2022-1 교양 교과목 과제 출제 사례

<표 1>

변환 전후쌍 예시

<표 1>

[그림 2]

근대 국한문 혼용 텍스트 가공 처리 구조도

[그림 3]

‘大學’으로 검색하여 내려받은 근대 신문기사의 원 데이터

[그림 4]

가공 후 생성된 파일을 열었을 때의 화면 (각각 MacOS 환경에서와 Windows 환경에서의 작동례)