기계번역과 관련된 국내 연구의 주제 탐색 -텍스트마이닝을 활용하여

Exploring Topics in Domestic Research on Machine Translation through Text Mining

Article information

Korean J General Edu. 2024;18(1):151-163
Publication date (electronic) : 2024 February 28
doi : https://doi.org/10.46392/kjge.2024.18.1.151
송은정
사이버한국외국어대학교 한국어학부, 조교수, wildlion80@hanmail.net
Assistant Professor, Cyber Hankuk University of Foreign Studies
이 연구는 2023학년도 사이버한국외국어대학교 교내학술연구비 지원에 의하여 이루어진 것임.
Received 2024 January 20; Revised 2024 February 03; Accepted 2024 February 19.

Abstract

초록

기계번역은 이미 인간의 일상과 학문, 그리고 교육의 현장에 깊숙이 들어와 있다. 학습자는 외국어 텍스트를 이해하기 위해 번역기를 활용하고, 교수자는 교양 영어와 같은 외국어 수업이나 외국인 유학생을 위한 다양한 수업에서 기계번역을 이용하고 있다. 본 연구에서는 이미 일상과 다양한 학문의 영역에서 논의되고 있는 기계번역 관련 논문의 동향을 살펴 지금까지 연구된 주제의 흐름을 살피는 데 목적이 있다. 이를 위해 1970년대부터 현재까지의 국내 연구 875편을 수집하고 토픽 모델링을 활용하여 논문들의 주제를 추출하였다. 그리고 각 연구 주제의 시기별 흐름을 분석하여 연구 주제의 변화를 살펴보고 연구 주제의 네트워크도 파악할 수 있었다. 이를 통해 2016년 말 구글의 인공신경망 기계번역이 공개된 후 연구 수와 주제가 크게 변화되었음을 확인하였다.

Trans Abstract

Abstract

Machine translation (MT) has become increasingly ubiquitous in our daily lives, academia, and education. Learners use MT to understand foreign language texts, and teachers use MT in a variety of courses, such as general English and courses for international students. This study aims to investigate the trends of MT research in Korea and to identify the research topics that have been studied so far. To this end, this study collected 875 domestic MT research papers from the 1970s to the present and extracted the topics of the papers using topic modeling. This study then analyzed the temporal trends of each research topic to examine the changes in research topics and to identify their networks. This study’s findings show that the number of research papers and research topics have changed significantly since the release of Google’s neural machine translation in late 2016.

1. 서론

번역이라는 행위는 전통적으로 외국어 담화나 텍스트를 이해하고 소통하기 위해 필요한 것으로 간주되었으며 기계의 힘을 빌리기 전까지 번역 행위는 인간에게 의존되어 왔다. 그러나 현재는 인간의 일상에서 기계를 통한 번역을 쉽게 찾아볼 수 있다. 외국어로 작성된 웹 페이지에서도 자동으로 제공되는 번역을 통해 정보를 이해할 수 있고 외국에서 안내문을 읽을 때도 이미지 속의 텍스트를 외국어로 변환해 주는 번역 앱을 통해 의미를 파악할 수 있게 되었다. 뿐만 아니라 외국어로 구어 및 문어의 소통이 필요할 때도 언어 생성 모델의 도움으로 문법적⋅사회언어학적⋅담화적으로 자연스러운 표현으로 번역해 낼 수 있다. 나아가 학문의 모든 영역에서 외국의 정보를 찾거나 해외 연구의 내용을 이해할 때도 인간의 도움 없이 기계번역을 통해 원하는 업무를 수행하거나 지원받을 수 있게 되었다. 뿐만 아니라 교육 현장에서도 유용하게 활용되고 있다. 교양 영어와 같은 외국어 수업에서는 ChatGPT와 같은 인공 지능을 활용한 번역 교육이 이루어지고 있고(박혜선, 최진실, 2023), 한국어 작문 수업에서도 기계번역을 활용한 교육 방안과 사례가 연구되고 있으며(박수진, 2023), 기계번역 결과물의 포스트에디팅과 관련된 교육에 대해서도 연구가 이루어지고 있다(이소현, 2021).

이처럼 이미 인간의 일상의 전면에 깊숙이 들어온 기계번역에 대한 연구는 그 학문의 영역도 방대하다. 연구 초기에는 번역학과 공학 분야에서의 연구가 주를 이루었으나 현재는 언어학, 외국어학, 국어학, 사회학, 법학, 교육학 등 다양한 분야의 연구로 확대되었을 뿐 아니라 하나의 학문 분야에 제한되지 않고 학제 간 융복합 연구로 그 범위를 넓히고 있다. 패턴 번역에서부터 인공 지능 번역으로 기계번역의 변천에 따라 연구의 범위와 분야도 확장되고 변화를 거듭하였다. 이에 본고에서는 국내에서 기계번역에 대한 연구가 시작된 지 반 세기가 가까워진 이 시점에서 그간의 연구를 전반적으로 돌아보고자 한다. 이를 위해 다양한 분야에서 발표된 기계번역에 대한 학술 논문을 전체적으로 수집하고 텍스트마이닝을 활용하여 분석함으로써 지금까지 어떤 주제의 흐름으로 연구가 이루어졌는지 탐색하는 것이 본 연구의 목적이다.

물론 선행 연구들 중에 기계번역에 대한 연구 동향과 주제를 분석한 논문들이 일부 있으나 기계번역 전반에 대한 연구 동향과 주제를 검토한 논문을 찾아보기 힘들다. 이는 기계번역과 관련된 동향 연구들이 개별 학문 분야와 특정 시기에 초점을 맞추어 연구의 대상을 제한하기 때문이다.

김순미 외(2019)에서는 2016년부터 2019년까지의 기계번역 관련 연구물 32편을 대상으로 동향을 분석하였고, 최문선(2019)에서는 1997년부터 2018년까지는 번역학 분야 기계번역 관련 49편의 논문 내용을 분석하고 2017년부터 2018년까지는 번역학 논문 24편과 공학 논문 14편을 대상으로 키워드를 분석하였다. 또한 김혜숙 외(2023)에서는 2010년 이후의 AI 기계번역기 활용에 대한 국내 연구물 35편과 해외 연구물 38편을 외국어 교육의 측면에서 분석하였으며, 전현주(2023)에서는 기계번역 관련 논문 중에서 10년간 발표된 통번역 분야의 연구물 177편을 분석하였다.

이상의 선행 연구를 살펴 보면 연구 동향을 분석하기 위해 선정한 연구 대상, 즉 연구물의 양이 많지 않다는 것을 알 수 있다. 이는 선행 연구들이 각 목적과 방법에 따라 적합한 논문들을 선정하여 수집하므로 제한된 분야의 특정 시기에 발표된 연구물만을 검토하기 때문이다. 따라서 기계번역에 대한 전체적인 연구 성과의 흐름을 살펴보기 위해서는 전 기간에 걸쳐 발표된 연구물을 대상으로 분석을 실시할 필요가 있다.

지금까지 기계번역 관련 연구 동향에 대한 분석은 대체로 번역학과 언어학 분야에서 이루어져 왔고 이에 따라 연구물의 분야도 번역학, 언어학을 중심으로 한정되었다. 그런데 학문의 현장에서는 외국어학, 교육학, 번역학, 한국어학, 법학, 사회학, 전산학, 공학 등 다양한 측면에서 기계번역의 연구가 활발히 이루어지고 있다. 더욱이 기계번역과 관련된 다양한 분야의 융합 연구로 이미 학제 간 벽이 허물어져 학문의 영역을 분명하게 나누기도 어려운 상황에 있다. 또한 기계번역의 명칭, 개념, 방식, 기술, 활용 등도 이전과 비교하여 혁신적인 변화를 거듭하고 있는데, 과거의 개념이나 기술이 사라지고 완전히 새로운 것으로 대체되기도 하지만 이전의 개념이 유지되거나 약간의 변화를 거치며 발전하고 있기도 하다. 그러므로 어떤 특정 시기나 제한된 학문 분야의 연구를 분석하는 것은 기계번역과 관련된 연구 주제와 그 흐름을 전반적으로 살펴보기에는 한계가 있다. 따라서 학문 영역이나 연구 시기에 관계 없이 국내에서 발표된 연구물을 동향 연구의 대상으로 삼을 필요가 있다. 현재까지 국내에서 기계번역과 관련하여 어떤 주제들로 연구가 이루어져 왔는지 분석함으로써 주제별 연구의 비중과 시기별 연구의 변화를 파악할 수 있을 것이다.

2. 연구 대상 및 방법

2.1. 연구 대상

2.1.1. 분석 대상 설정

컴퓨터를 기반으로 하는 기계번역을 부르는 명칭은 학문 분야와 기술의 유형에 따라 다양하게 불리고 있다. ‘기계번역(MT)’, ‘자동 번역(Automatic Translation)’, ‘규칙 기반 기계번역(RBMT)’, ‘코퍼스 기반 기계번역(CMT)’, ‘예제 기반 기계번역(EBMT)’, ‘통계 기반 기계번역(SMT)’, ‘신경망 기반 기계번역(NMT)’, ‘딥러닝 기반 기계번역’, ‘인공신경망 기계번역’, ‘AI 번역’, ‘인공지능 번역’, ‘하이브리드 기계번역(HT)’, ‘프롬프트 기반 기계번역’ 등 각 연구마다 다양한 명칭으로 나타나는데 국내 연구의 초기부터 현재까지 연구에 등장하는 개념들을 포괄하는 용어로는 ‘기계번역’을 들 수 있다. 물론 ‘기계번역(MT)’이 좁은 의미로는 ‘인공신경망 기계번역’과는 구별된 개념으로서, 규칙과 통계를 기반으로 하는 기계적인 언어 전환을 일컫는 용어로 쓰이기도 한다. 그런데 넓은 의미로는 ‘기계번역’을 인간 번역이 아닌 컴퓨터 프로그램을 통해 번역하는 경우를 총칭하는 말로 쓰일 수 있다. 홍정희(2021, p. 6)는 기계번역을 사람의 개입 없이 컴퓨터 프로그램을 통해 번역의 결과물을 얻는 것으로 정의하였으며, 박혜경(2018, p. 163)도 하나의 자연 언어를 다른 자연 언어로 번역하는 변환을 컴퓨터를 통해 모두 자동적으로 수행하는 것으로 설명했다. 임형재 외(2023, p. 34)에서는 이러한 개념을 ‘광의적 기계번역’으로 규정하고 있다.

본 고는 그간 국내에서 발표된 연구의 동향을 전체적으로 살펴보며 분석된 주제를 탐색하는 것에 목적이 있다. 따라서 규칙이나 통계 기반으로서의 ‘기계번역’이 아닌, 인간 번역에 대응되는 개념으로 사용한 넓은 의미의 ‘기계번역’에 초점을 맞춰 국내 연구의 흐름을 살펴보고자 한다.

2.1.2. 분석 대상 수집

앞서 밝힌 바와 같이 본 고에서는 국내에서 발표된 연구 중에 기계번역과 관련된 모든 학술 논문을 연구 대상으로 삼았다. 국내에서 연구되는 전체 학문 분야를 모두 포괄하였으며 그 시기에도 제한을 두지 않았다. 이를 위해 KERIS에서 제공하는 학술연구정보서비스(Research Information Sharing Service, Riss)에서 2024년 1월을 기준으로 국내에서 발표된 모든 학술지의 논문과 학위 논문을 수집하였다.

논문 수집 시 사용한 검색어는 ‘기계번역’, ‘자동 번역’, ‘인공 지능 번역’, ‘AI 번역’, ‘번역기’ 등으로 기계번역과 관련된 연구를 검색할 수 있는 표현을 활용하였다. 이를 통해 검색된 논문 중에서 서지 정보가 불분명한 논문, 중복된 논문, 기계번역과 관계가 없는 논문 등을 제외하여 최종 분석 대상이 된 논문은 총 875편이다. 그 중 학술지 논문이 605편으로 전체의 약 69%, 학위 논문이 270편으로 약 31%를 차지했다.

2.2. 연구 방법

본 고에서는 분석 대상이 되는 875편의 논문을 주제와 그 흐름을 살펴보기 위해 텍스트마이닝 방식 중 하나인 토픽 모델링(Topic-Modeling)1)을 활용하였다.

이전의 기계번역 관련 연구들 중 연구 동향 및 주제를 탐색하기 위해 사용한 방법은 대체로 선행 연구의 내용이나 기준을 토대로 연구자의 판단하에 주제를 분류하는 방식이었다(이향, 2011; 신지선,2020). 이러한 방식은 연구자가 초점을 두는 내용을 깊이 있게 볼 수 있고 통찰력을 가진 전문가의 관점을 통해 의미 있는 연구 결과를 도출해 낼 수 있다는 것이 장점이다. 그러나 많은 양의 연구물을 개인 연구자가 모두 이해하고 분석하는 것은 쉬운 일이 아니다. 더구나 본 연구 주제와 같이 학문의 분야가 다양하고 융합된 연구가 다수 있을 경우 연구자의 전문 분야가 아닌 주제를 분석하는 데에 상당한 어려움이 발생한다. 또한 학문의 변화와 연구의 심화로 인해 선행 연구의 분류에서 벗어나거나 범주가 중첩되는 주제가 발생하는데 이에 대한 분류의 어려움을 이미 이향(2011, p. 354)에서 밝혔으며, 그 후 10년이 지난 시점에 연구된 이상빈(2020, p. 84)에서도 역시 동일한 어려움을 언급하였다.

이러한 경우 텍스트마이닝 방식을 사용하는 것이 효과적인데, 연구의 주제를 드러낼 수 있는 주요 서지 정보를 통해 단어를 추출하면 연구자의 주관을 배제하고 다수의 연구를 객관적으로 분석할 수 있다. 이에 본 고에서는 총 875편의 논문들의 핵심이 되는 주요 주제를 알아보기 위해서 잠재 디리클레 할당(LDA, Latent Dirichlet Alloaction) 방식의 토픽 모델링을 활용하여 분석을 실시하였다.

2.3. 연구 절차

토픽 모델링 분석을 실시하기 위해 먼저 총 875편의 논문의 비정형 텍스트를 분석 가능한 데이터로 정리하였다. 대규모 데이터의 분석에 자주 이용되는 넷마이너(Netminer) 4.5의 형태소 분석기를 이용하여 각 논문의 제목, 저자 키워드, 초록 정보에서 분석할 명사 단어를 추출해 내었다. 이 과정에서 ‘일어’와 ‘일본어’나 ‘러시아어’, ‘노어’와 같이 동일한 의미로 쓰인 단어는 하나의 단어로 처리할 수 있도록 유의어 사전을 추가하였으며 논문에서 자주 등장하지만 핵심어로 보기 어려운 ‘연구’, ‘분석’, ‘논문’ 등과 같은 어휘들은 제외어로 처리하였다. 또한 전체 텍스트에서 1회만 출현한 어휘를 제외하고 한자와 외국어 단어를 변환하는 등 반복적인 전 처리 과정을 통해 최종 단어의 목록을 추출하였다. 이로써 추출된 단어 목록 2448개가 토픽 모델링의 대상이 되었다.

토픽 모델링을 실시하기 위해서는 연구자가 스스로 분류할 주제의 개수를 설정해야 하는데, 본 연구에서는 NetMiner에서 Evaluation of Topic Models를 활용하여 주제의 일관성을 확인하였다. 이에 Coherence 값이 가장 높은 7개로 설정하고 토픽 모델링을 실시하였다.

본 연구에서는 이러한 과정을 통해 얻은 결과를 크게 세 가지 범주로 나누어 분석하였다. 첫째, 기계번역 관련 연구물 875편의 시기별 흐름을 살펴봄으로써 전체 연구 성과가 어떤 추이를 보이고 있는지 확인하고자 하였다. 둘째, 토픽 모델링 결과 7개의 토픽 그룹이 추출되면 각 토픽별로 핵심어를 확인함으로써 중심이 되는 연구 주제들이 무엇인지 분석하였다. 이 때 각 토픽의 시기별 흐름을 함께 분석하였는데 전체 연구의 흐름을 함께 비교하며 토픽별로 어떤 특징이 있는지 분석하고자 하였다. 마지막으로, 추출된 7개의 토픽 그룹이 서로 어떤 관련이 있는지 알아보기 위해 토픽 맵(Topic Map)을 확인하였다. 이를 통해 토픽 간 네트워크를 분석하여 어떤 매개어를 통해 주제가 연결되고 확장되는지 살펴보고자 하였다.

3. 분석 결과

3.1. 기계번역 관련 연구의 흐름

본 고의 분석 대상인 기계번역 관련 연구는 총 875편으로 1970년대부터 현재에 이르기까지 국내에서 발표된 논문들이다. [그림 1]과 같이 기계번역 관련 논문은 80년대에서 90년대 후반까지 증가하는 추세를 보이다가 2000년대에 들어서 다소 연구가 주춤한 것을 볼 수 있다. 그리고 2010년대 후반에 들어서면서 급속한 증가를 보이고 있다.

[그림 1]

기계번역과 관련된 연구물의 시기별 변화

80~90년대에 기계번역 관련 연구가 증가한 것은 기계번역 기술의 발전과 관계가 있다. 1980년대는 규칙 기반 기계번역이 개발되면서 유럽, 일본, 미국 등에서 기계번역 시스템이 연구되고 발전되던 시기이다. 80년대의 유로트라(EUROTRA) 프로젝트로 대표되는 기술 개발은 자연스럽게 기계번역에 대한 관심으로 이어졌고 대기업과 국제 기구의 참여도 높아졌다(신지선,2020, p. 89). 이러한 세계적인 흐름 속에서 국내의 연구도 점차 증가하게 되었다고 할 수 있다. 1990년대에는 컴퓨터 보급이 확대되고 통계 기반 기계번역 기술이 크게 발달하면서 번역 품질이 향상되었다(임형재 외, 2023, p. 41). 이에 따라 국내에서도 기계번역 관련 연구들이 증가하는 추세를 보인 것이다.

이후의 기계 번역 관련 연구는 2000년대까지 큰 변화를 보이지 않다가 2010년 후반부터 괄목할 만한 성장을 하게 된다. 이와 같은 가파른 증가세는 2016년 하반기에 구글 신경망 기계번역(GNMT)이 공개된 영향으로 보이는데 이 시점은 국내 기계번역 연구사에서도 변곡점이 될 만하다. 1970년대부터 2016년까지의 누적 연구물이 447편인 데 비해 이 시기 이후 2017년부터 현재까지 폭발적으로 증가하여 단 7년 만에 428편의 연구가 발표되었다. 최근 7년의 연구물이 이전 37년간의 연구물과 비슷한 양을 보인 것이다. GNMT로 인해 신경망 기반 번역의 사회적 인식이 넓어지고 기계번역의 품질이 향상되면서 각 학문 분야에서의 활발한 연구가 이루어진 것으로 분석할 수 있다(최문선, 2019, p. 283).

3.2. 토픽 모델링을 통한 주제별 흐름 분석

본 연구의 목적은 총 875편의 기계번역 관련 연구물들의 주제를 분석하는 것이므로 이를 분석하기 위한 데이터로서 전처리가 완료된 2448개의 단어 목록을 마련하고 토픽 모델링을 실시하였다. 그 결과 각 토픽별로 고빈도 단어를 추출하고 주제별로 논문을 분류할 수 있었다. 토픽 모델링 결과 각 토픽 그룹별 핵심어와 논문 비율은 <표 1>과 같다.

토픽 그룹별 핵심어

분류된 그룹별로 연구의 수를 확인해 보면 Topic6이 총 172편(20%)으로 가장 많은 비중을 차지한다. Topic6의 핵심어는 ‘한일’, ‘처리’, ‘문장’, ‘단어’, ‘자동’으로 나타난다. 실제로 포함된 논문을 살펴보면 ‘동사 처리’, ‘선어말어미 처리’, ‘보조 용언 처리’, ‘접속문 처리’, ‘미등록어 처리’, ‘관용구 처리’ 등을 주제로 한 연구들이 많은 양을 차지하고 있다. 즉, 자동 번역을 위한 단어, 구문, 문장을 분석하고 패턴을 추출하는 연구와 이를 위한 언어학적인 분석 연구가 포함되어 있다.

Topic6 논문들의 시기별 연구 추이를 살펴보면 [그림 2]와 같다. 80년대 중반부터 시작된 연구는 가파르게 성장하다가 1998년을 기점으로 점차 줄어들고 있으며, 2010년대 중반부터는 연구가 매우 드물게 이루어지고 있다. 사실 Topic6이 가장 많은 비중을 차지하는 주제임에도 불구하고 [그림 1] 전체 논문의 시기별 추이와 비교해 보면 상당한 차이가 있음을 알 수 있다. 이는 Topic6의 논문들이 규칙 및 통계 기반 기계번역을 위한 연구를 중심으로 구성되어 있기 때문이다. RBMT나 SMT는 80~90년대에 활발히 연구 개발되었던 기계 번역 기술이었으나 2010년 후반 NMT의 등장으로 관련 연구가 줄어든 것으로 분석할 수 있다.

[그림 2]

Topic6의 시기별 연구 추이

다음으로 많은 비중을 차지하는 연구는 168편(19%)의 논문으로 구성된 Topic5이다. 핵심어는 ‘변환’, ‘한영’, ‘규칙’, ‘사전’, ‘구문’으로, 주로 기계 번역을 위한 변환 규칙이나 변환 지식을 연구하고 기계 번역을 위한 한국어 품사 분류, 구문 분석, 문법 연구를 통해 변환 사전을 개발하는 논문들이 포함되어 있다. 형태소와 품사 등을 분류하고 변환 규칙을 개발하여 시스템을 구축하는 연구는 규칙 기반 기계 번역을 위해 기본적으로 요구되는 연구 주제이다. 따라서 이러한 논문은 주로 연구 초기에 분포되어 있다.

Topic5의 연구는 [그림 3]과 같이 주로 80년대~90년대를 중심으로 진행되었으며 이후에는 그 수가 감소했다. 기계 번역 품질 향상을 위한 구문 규칙의 개선과 관련된 연구들이 2010년대에도 일부 등장하기는 하나 대체로 Topic5와 Topic6은 최근 연구 주제와는 거리가 있음을 알 수 있다.

[그림 3]

Topic5의 시기별 연구 추이

반면 Topic4의 연구는 152편으로 전체의 17%를 차지하고 있다. 핵심어는 ‘포스트에디팅’, ‘평가’, ‘오류’, ‘인간’, ‘텍스트’로 기계 번역의 오류를 개선하기 위한 인간의 포스트에디팅과 관련된 연구, 번역 품질 자동 평가에 대한 연구, 그리고 인간 번역과 기계 번역의 품질을 비교하는 연구, 다양한 유형의 텍스트 번역 연구 등이 포함되어 있다.

Topic4의 시기별 연구 추이를 보면 [그림 4]와 같이 최근 시기에 연구가 집중된 것을 알 수 있다. 2017년 이후 Topic4의 주제는 폭발적으로 증가하여 2017년~2023년의 기간 동안 총 135편의 연구물이 발표되었다. 이는 동 기간 그 어떤 Topic보다도 더 많은 연구 성과로 보인다.

[그림 4]

Topic4의 시기별 연구 추이

다음으로 큰 비중을 차지하는 연구는 140편의 논문으로 구성된 Topic2이며 전체의 약 16%이다. Topic2의 핵심어는 ‘번역기’, ‘학습’, ‘영어’, ‘오류’, ‘교육’으로 기계 번역의 오류를 분석하고 이를 유형화하는 연구와 번역기를 활용한 외국어 학습 및 교육 방안에 대한 연구들이 주를 이루었다. 또한 상위 핵심어로 나타나지는 않았으나 포스트에디팅 교육에 관한 연구들도 포함되어 있다.

Topic2의 연구를 시기별로 살펴보면 [그림 5]와 같이 나타난다. 앞서 Topic4의 경우에도 연구 초기보다는 최근에 많은 논문이 발표되었는데 Topic2의 논문도 최근에 많은 연구가 쏟아지고 있다. 2017년~2023년의 기간 내에 Topic2의 논문은 총 125편이나 되었다. 이는 NMT의 사회적 관심과 인식이 넓어지면서 기계 번역이 교육적인 측면으로 활용되고 있기 때문이다. 실제로 Topic2에는 기계 번역을 활용한 번역 교육이나 언어 교육 관련 연구들이 포함되어 있다. 이러한 확장은 기계번역의 활용이 번역학 분야를 넘어 대학 내의 다양한 학문 및 교양 교육의 영역으로까지 확대되고 있음을 보여주고 있다.

[그림 5]

Topic2의 시기별 연구 추이

이어서 Topic1의 연구가 총 100편으로 전체의 11%를 차지하였다. Topic1은 ‘모델’, ‘학습’, ‘문장’, ‘성능’, ‘데이터’라는 핵심어로 대표되며, ‘자연어 생성 모델’, ‘기계 번역 모델’, ‘기계 번역 사전 학습 모델’ 등 사전 학습을 통한 자연어 생성 모델 등과 관련된 연구와 데이터 증강을 통한 성능 향상에 대한 논문들이 포함되어 있다.

[그림 6]에서 확인할 수 있듯이 Topic1의 경우 Topic2, 4 만큼의 수에는 미치지 못하지만 주로 최근 시기에 집중되어 연구가 발표되고 있다. 기계 번역 모델의 성능 향상을 위해서는 학습을 위한 많은 병렬 데이터가 필요한데 이를 위한 데이터 증강에 대한 연구가 최근 시기에 이루어진 것으로 분석된다.

[그림 6]

Topic1의 시기별 연구 추이

나머지 두 개의 주제들은 모두 10%가 채 되지 않는 비중인데 Topic7은 76편으로 9%, Topic3은 총 67편으로 8%를 차지하였다. Topic7의 핵심어는 ‘특허’, ‘기술’, ‘품질’, ‘전문’, ‘분야’로 특허 번역에 대한 연구로 이루어졌다. 특허 번역과 같은 특정한 전문 분야와 관련된 연구로, 전문 분야에서 기계 번역 기술과 번역 품질에 대한 문제, 그리고 법적 문제에 대해 다루는 연구들이 포함되었다.

[그림 7]에서와 같이 Topic7 역시 최근에 연구 성과가 나타나는 추세이다. 이는 최근 기계번역의 품질 개선으로 인해 인간만이 할 수 있다고 믿었던 전문 분야의 번역들이 점차 기계번역의 범위에 포함되고 있기 때문으로 분석된다. 이러한 번역 품질은 기계번역이 다양한 교육의 영역으로 확장되는 계기를 마련한 것으로 보인다.

[그림 7]

Topic7의 시기별 연구 추이

마지막으로 가장 적은 분량의 연구물이 포함된 Topic3의 핵심어는 ‘자동’, ‘음성’, ‘인식’, ‘통역’, ‘국어’로 추출되었다. 즉, Topic3에는 자동 통역, 자동 번역, 음성 번역, 음성 자동 번역, 음성 인식, 문자 인식 등의 주제를 다루는 논문이 포함되어 있다.

[그림 8]의 그래프 모양으로는 시기별로 꽤 다양한 변화를 보여주는 것으로 보일 수 있으나 다른 Topic과 비교하면 그 수가 매우 적기 때문에 실제적으로 활발한 연구가 이루어졌다고 보기는 어렵다. 음성 인식 기술과 관련된 자동 통번역을 중심으로 하는 주제는 앞으로 더 많은 연구가 이루어질 것으로 보인다.

[그림 8]

Topic3의 시기별 연구 추이

3.3. 토픽 맵을 통한 핵심어의 네트워크 분석

토픽 모델링을 통해 추출한 핵심어는 각 주제를 잘 드러내는 고빈도 어휘들이다. 그런데 해당 어휘들은 특정 Topic에만 등장하는 것이 아니라 다른 Topic에도 중첩되어 나타나기도 하고 핵심어를 연결 고리로 해서 Topic들이 서로 관계를 맺고 있기도 한다. 이에 본 연구에서는 토픽 맵(Topic Map)을 통해 Topic과 핵심어의 네트워크를 분석하고자 한다.

토픽 맵(Topic Map)에는 핵심어를 나타내는 붉은 원이 있는데 원의 크기가 클수록 빈도가 높은 키워드에 해당한다. 그리고 Topic과 핵심어를 연결하는 선의 굵기가 두꺼울수록 해당 Topic에 할당 확률이 높은 키워드라고 할 수 있다.

[그림 9]에 나타난 바와 같이 7개의 Topic은 각 주제별 핵심어를 가지고 있으며, 1~2개의 핵심어를 매개로 서로 연결되어 있다. 기계 번역과 관련된 주제 전체가 하나의 원을 그리는 것으로 보아 각 Topic 그룹들은 서로 긴밀하게 연결되어 있음을 알 수 있다. 이는 각 학문 분야에 기계 번역과 관련된 전문 연구 영역이 존재함과 동시에 서로 연결된 영역을 통해 연구가 연계되고 융합되는 지점이 있다는 것을 보여준다. 또한 기계번역이 다양한 대학 학문의 영역에서 연계되어 확장되고 있음을 재확인할 수 있다.

[그림 9]

전체 토픽 맵(Topic Map)

그 중에서도 [그림 10]과 같이 토픽 맵 왼쪽의 큰 축을 이루는 Topic2와 Topic4는 ‘오류’와 ‘포스트에디팅’ 두 개의 핵심어를 서로 공유하고 있어 긴밀한 관계를 가질 수 있다. 앞서 살펴보았듯이 Topic2와 Topic4는 최근에 연구의 수가 급증하였으며 NMT의 발달과 함께 눈에 띄는 관심을 받는 주제이다. 기계번역의 오류를 분석하고 다양한 텍스트의 번역 품질을 평가하며, 인간 번역과의 비교나 포스트에디팅을 통해 기계번역을 외국어 및 번역 교육에 적극적으로 활용하는 연구들이다. 앞으로도 이러한 추세가 이어질 것으로 보인다. 특히 ‘포스트에디팅’은 전체 2448개의 추출된 단어 목록 중 ‘자동’에 이어 두 번째로 높은 빈도로 등장하는 핵심어이다. 이는 기계번역 후 편집에 대한 연구와 이를 활용한 교육이 최근 단기간에 매우 큰 관심을 받고 있음을 보여주는 현상이다.

[그림 10]

Topic2, Topic4 중심의 토픽 맵

[그림 9] 토픽 맵의 오른쪽 부분에는 Topic3, Topic5, Topic6 세 개의 토픽 그룹이 서로 매개어를 두고 연결되어 있음을 볼 수 있으며, 이를 확대하면 [그림 11]과 같이 나타낸다. 분석된 전체 단어 목록 중 가장 고빈도 어휘인 ‘자동’과 깊은 관련성을 가진 Topic3은 자동 통역과 음성 인식의 주제를 다루고 있으며 앞서 살펴본 것처럼 연구 수는 적은 편이다. Topic3이 Topic5와 공유하고 있는 핵심어는 ‘한영’이다. 물론 영어 통번역은 그 어느 언어보다 연구가 많이 이루어졌으므로 다른 Topic에도 영어를 다루는 연구가 포함되어 있다. 그러나 Topic3과 Topic5의 주제에서 특히 ‘한영’이라는 핵심어가 통계적으로 할당되는 확률이 높았음을 의미한다. 이로써 Topic5의 주제 핵심어인 문법, 품사, 구문 등의 분석은 어순과 구조가 다른 영어를 대상으로 연구가 다수 이루어졌음을 추론할 수 있다. Topic5는 Topic6과도 ‘구문’이라는 핵심어를 통해 네트워크를 형성하고 있다. Topic6의 연구는 자동 번역을 위해 구문을 분석하는 논문을 포함하며 ‘한일’이라는 핵심어와 연결되어 있다. Topic5와 마찬가지로 일본어를 다루는 논문이 다른 Topic에도 포함되어 있지만, 일본어와 관련된 단어 처리, 동사 구문의 처리를 주제로 하는 연구들은 Topic6에 확률적으로 가장 높게 나타났음을 보여주고 있다.

[그림 11]

Topic3, Topic5, Topic6 중심의 토픽 맵

[그림 9]의 전체 토픽 맵에서 왼쪽과 오른쪽의 큰 그룹을 연결하는 Topic이 Topic7과 Topic1이며, 이를 확대하면 [그림 12]와 같이 나타난다. 먼저 Topic1은 Topic2와 Topic6 사이에 각각 ‘학습’와 ‘문장’이라는 고빈도어를 매개어로 두고 있다. Topic1은 사전 학습 기계 번역 모델의 성능 향상을 위한 데이터 증강을 연구 주제로 삼고 있는 그룹으로서 Topic2와 함께 최신 연구 주제로 관심을 받고 있다. 그런데 Topic6은 80년대와 90년대에 활발히 연구되었던 주제이며 최근에는 논문 수가 감소하는 추세에 있음에도 두 연구 주제에 서로 연결되는 지점이 존재한다는 점이 흥미롭다. Topic7도 마찬가지로 최근 연구 중 큰 비중을 차지하는 Topic4와 반대로 전체 연구 중 비중이 가장 작은 Topic3을 연결하고 있음을 볼 수 있다. 이로써 전체 연구 Topic들은 하나로 이어져 각 연구는 서로의 매개어를 통해 네트워크를 형성함을 확인하였다.

[그림 12]

Topic1과 Topic7 중심의 토픽 맵

4. 결론

지금까지 국내 연구를 대상으로 기계번역 관련 연구의 시기별 흐름과 주제를 전반적으로 살펴보았다. 이를 위해 1970년대부터 현재까지 총 875편의 논문에서 잠재된 토픽 그룹을 추출하였다. 분석 결과 2016년 말 GNMT의 발표 이후 연구의 주제와 수가 큰 변화를 보인다는 것을 확인하였다. 인공신경망 기계번역 기술의 도입과 보급은 인간의 일상에 영향을 주면서 다양한 학문의 영역에서 기계번역을 다루게 되었고, 이로써 관련 연구사에도 의미 있는 변화를 남겼다고 할 수 있다.

지금까지의 흐름을 살펴보면 그 시점을 계기로 관련 연구 수가 크게 증가한 점에 주목할 수 있다. 전체 875편 중에 2016년까지의 연구물이 51%를 차지하고, 2017년 이후 연구물이 49%를 차지한다. 2017년부터 현재까지 단 7년 만에 관련 연구가 대폭 증가하였을 뿐 아니라 이후로도 증가하는 추세에 있다.

주제별로도 의미 있는 변화가 나타났다. Topic5와 Topic 6에는 규칙 및 통계 기반과 관련된 연구들이 포함되어 있는데 이러한 주제는 감소하는 추세에 있는 데 반해 Topic2와 Topic4에 해당하는 번역 오류나 기계번역 활용 교육 등의 주제는 2017년 이후로 가파르게 성장하고 있는 것으로 분석되었다. 특히 기계번역이 외국어 학습과 번역 교육 등 대학교육을 비롯한 교육적 측면에서 접근하는 연구의 범위가 확대되고 수가 증가하고 있다는 점이 특기할 만하다. 기계번역 품질이 빠르게 향상되고 있는 만큼 앞으로 이러한 추세는 계속 이어질 것으로 보인다.

또 한 가지 주목할 점은 각 연구의 주제들이 매개어를 통해 서로 연결되고 있다는 점이다. 이는 각 전문 분야의 심화 연구는 물론이고 학제 간 융합 연구가 가능함을 시사한다. 최신 기술을 반영한 Topic2와 Topic4에 관한 연구도 앞으로 지속되겠지만 Topic7과 같은 전문 분야의 깊이 있는 연구도 확장될 것으로 전망된다.

이상의 결과는 기계번역이 더 이상 번역학이나 공학 분야의 전유물이 아니라 대학 내의 다양한 학문과 교양교육을 비롯한 교육의 분야에서 활용될 수 있음을 의미한다. 기계번역 관련 연구가 급속히 증가하고 그 분야도 넓어지고 있는 만큼 앞으로 융합되고 전문화된 관련 연구의 흐름을 기대한다.

References

1. Choi M. 2019;Trends in machine translation research within the translation studies community in Korea. Journal of Linguistic Studies 24(1):275–297. http://dx.doi.org/10.21291/jkals.2019.24.1.13.
2. [최문선. (2019). 국내 번역학 기계번역 연구 동향 : 내용 분석과 키워드 분석을 중심으로. 언어학연구, 24(1), 275-297. http://dx.doi.org/10.21291/jkals.2019.24.1.13].
3. Chun H. 2023;An analysis of research trends in Korean translation studies related to 'Machine translation'. Convergence Studies in English Language &Literature 8(3):85–121. https://doi.org/10.55986/cell.2023.8.3.85.
4. [전현주. (2023). ‘기계번역’ 관련 국내 번역학 연구동향 분석. 융합영어영문학, 8(3), 85-121. https://doi.org/10.55986/cell.2023.8.3.85].
5. Hong J. 2021. A comparative study on the perception of human translation and machine translation post-editing among translators. [Master's thesis, Kwangwoon University] https://www-riss-kr.sproxy.hufs.ac.kr/link?id=T15809124.
6. [홍정희. (2021). 인간번역과 기계번역포스트에디팅에 대한 번역사의 인식 비교 연구. [석사학위논문, 광운대학교 대학원]. https://www-riss-kr.sproxy.hufs.ac.kr/link?id=T15809124].
7. Lee H. 2011;How to classify translation studies? Interpreting and Translation Research Institute 15:341–362.
8. [이향. (2011). 국내 번역학 연구 경향에 관한 일 고찰 -「통번역학 연구」게재 논문의 분류를 중심으로. 통번역학 연구, 15, 341-362.].
9. Kim H. S, Mun C, Kim N. Y. 2023;Research trends on machine translators. The Journal of Foreign Studies (63):55–192. http://dx.doi.org/10.15755/jfs.2023.63.155.
10. [김혜숙, 문채영, 김나영. (2023). AI 기계 번역기에 대한 국내외 연구동향. 외국학연구, (63), 155-192. http://dx.doi.org/10.15755/jfs.2023.63.155].
11. Kim S. M, Shin H, Lee J. 2019;A university-industry joint study on machine translation post-editing productivity and MT engine error rate. The Journal of Translation Studies 20(1):41–76. https://doi.org/10.15749/jts.2019.20.1.002.
12. [김순미, 신호섭, 이준호. (2019). 번역학계와 언어서비스업체(LSP)간 산학협력연구: ‘포스트에디팅 생산성’과 ‘기계번역 엔진 성능 비교. 번역학연구, 20(1), 41-76. https://doi.org/10.15749/jts.2019.20.1.002].
13. Lee S. 2021;A study on the machine translation and post-editing behavior in Korean writing by Chinese learners. Bilingual Research 83:159–179. https://doi.org/10.17296/korbil.2021..83.159.
14. [이소현. (2021). 중국인 학습자의 한국어 쓰기에 나타난 기계번역 사용과 포스트 에디팅 행위 연구. 이중언어학, 83, 159-179. https://doi.org/10.17296/korbil.2021..83.159].
15. Lee S. B. 2022;Review of literature on machine translation:Based on arts and humanities journals covered in KCI journal database (from 2011 to early 2020). Korean Society of Interpretation and Translation Studies 22(2):75–104. https://doi.org/10.20305/it202002075104.
16. [이상빈. (2022). 기계번역에 관한 KCI 연구논문 리뷰: 인문학 저널 논문(2011~2020년 초)의 논의내용과 연구방법을 중심으로. 통역과 번역, 22(2), 75-104. https://doi.org/10.20305/it202002075104].
17. Lim H, Heo E. H, Lee Bun Calvin. 2023;Navigating AI translation:A guide for Korean interpreters and translators. Sotong Press
18. [임형재, 허은혜, 리번켈빈. (2023). 한국어 통번역사를 위한 AI 번역의 이해. 소통.].
19. Park H, Choi J. 2023;Post-editing in an EFL reading class:Focusing on learners'perception and error analysis. The Journal of Translation Studies 24(1):71–107. https://doi.org/10.15749/jts.2023.24.1.003.
20. [박혜선, 최진실. (2023). 학부 교양영어 수업에서의 기계번역 포스트에디팅: 사용자 인식과 오류를 중심으로. 번역학연구, 24(1), 71-107. https://doi.org/10.15749/jts.2023.24.1.003].
21. Park H. K. 2018;Teaching machine translation in master's degree translation courses:A case study of post-editing activity in the Korean-Japanese language pair. The Journal of Translation Studies 19(3):163–193. https://doi.org/10.15749/jts.2018.19.3.007.
22. [박혜경. (2018). 석사 과정의 기계번역 수업에 대한 소고: 한일번역 전공생의 포스트에디팅 사례를 통하여. 번역학연구, 19(3), 163-193. https://doi.org/10.15749/jts.2018.19.3.007].
23. Park S. J. 2023;L2 writing in a machine translation-based Korean writing class - Learner perceptions and characteristics of translated texts. Korean Journal of General Education 17(3):139–153. https://doi.org/10.46392/kjge.2023.17.3.139.
24. [박수진. (2023). 기계번역 활용 한국어 쓰기 수업에서 나타난 학습자 인식과 번역문의 특징. 교양교육연구, 17(3), 139-153. https://doi.org/10.46392/kjge.2023.17.3.139].
25. Shin J. 2020;Trends of overseas research on machine translation post-editing. The Journal of Translation Studies 21(4):87–114. https://doi.org/10.15749/jts.2020.21.4.004.
26. [신지선. (2020). 기계번역 포스트에디팅에 관한 해외 연구 동향. 번역학연구, 21(4), 87-114. https://doi.org/10.15749/jts.2020.21.4.004].

Notes

1)

토픽 모델링(Topic Modeling)은 대규모의 비정형 텍스트 속에서 잠재된 주제를 추출해 내는 방식으로서 최근 다양한 학문 분야에서 연구 동향을 분석하는 방식으로 활용되고 있다(송은정,2023:167).

Article information Continued

[그림 1]

기계번역과 관련된 연구물의 시기별 변화

<표 1>

토픽 그룹별 핵심어

토픽 주제별 핵심어 논문 수 (비율)
Topic1 모델, 학습, 문장, 성능, 데이터 100(11%)

Topic2 번역기, 학습, 영어, 오류, 교육 140(16%)

Topic3 자동, 음성, 인식, 통역, 국어 67(8%)

Topic4 포스트에디팅, 평가, 오류, 인간, 텍스트 152(17%)

Topic5 변환, 한영, 규칙, 사전, 구문 168(19%)

Topic6 한일, 처리, 문장, 단어, 자동 172(20%)

Topic7 특허, 기술, 품질, 전문, 분야 76(9%)

875

[그림 2]

Topic6의 시기별 연구 추이

[그림 3]

Topic5의 시기별 연구 추이

[그림 4]

Topic4의 시기별 연구 추이

[그림 5]

Topic2의 시기별 연구 추이

[그림 6]

Topic1의 시기별 연구 추이

[그림 7]

Topic7의 시기별 연구 추이

[그림 8]

Topic3의 시기별 연구 추이

[그림 9]

전체 토픽 맵(Topic Map)

[그림 10]

Topic2, Topic4 중심의 토픽 맵

[그림 11]

Topic3, Topic5, Topic6 중심의 토픽 맵

[그림 12]

Topic1과 Topic7 중심의 토픽 맵