한국어 말하기 평가 대비를 위한 생성형 AI의 활용 가능성 탐색 -멀티모달(Multimodal) 기반 음성 상호작용 기능을 중심으로

Exploring the Potential of Generative AI for Korean Speaking Assessment : Focusing on Multimodal-based Voice Interaction

Article information

Korean J General Edu. 2025;19(4):205-216
Publication date (electronic) : 2025 August 31
doi : https://doi.org/10.46392/kjge.2025.19.4.205
장지영1, 박수연2
1 제1저자, 이화여자대학교, 강사, dewjang@naver.com
1 Instructor, The Graduate School of International Studies, Ewha Womans University
2 교신저자, 세종사이버대학교, 부교수, psy7801@sjcu.ac.kr
2 Associate Professor, Department of Korean Language, Sejong Cyber University
Received 2025 July 27; Revised 2025 August 12; Accepted 2025 August 18.

Abstract

본 연구는 멀티모달 기반 음성 상호작용 기능을 갖춘 생성형 인공지능 GPT-4o를 활용하여 한국어 말하기 평가 문항에 대한 응답 생성 능력을 분석하고 그 교육적 가능성과 한계를 탐색하고자 하였다. 이를 위해 TOPIK 말하기 평가 6개 문항에 대해 GPT-4o의 음성 응답을 수집하고, 한국어 교육 전문가 18인의 채점을 통해 문항 유형 및 평가 항목별 수행 양상을 정량적, 정성적으로 분석하였다. 분석 결과 GPT-4o는 문법적 정확성과 논리적 구성 측면에서 높은 평가를 받았다. 그러나 억양, 발화 속도, 화용적 적절성 등에서는 한계가 드러났다. 특히 실제 학습자 수준을 초과하는 고급 어휘 사용과 발화 전달 방식이 어색하다는 지적이 많았다. 그럼에도 불구하고 GPT-4o는 실시간 말하기 연습, 모범 응답 제시, 자율 피드백 도구로서의 활용 가능성을 보여주었다. 그러므로 이 연구는 GPT-4o가 한국어 말하기 평가 대비 학습 도구로 활용될 수 있는 객관적 근거를 제시하는 기초 연구라는 점에서 의의가 있다.

Trans Abstract

This study explores the potential and limitations of GPT-4o, a multimodal generative AI equipped with real-time voice interaction, in generating responses to Korean speaking proficiency test tasks. To this end, the study collected voice-based responses to six TOPIK speaking tasks generated by GPT-4o and analyzed them both quantitatively and qualitatively based on the evaluations of 18 Korean language education experts. The results indicate that GPT-4o demonstrates high performance in grammatical accuracy and logical structure but reveals clear limitations in prosodic features such as intonation, speech rate, and pragmatic appropriateness. In particular, the use of overly advanced vocabulary and unnatural delivery was repeatedly pointed out as misaligned with actual learner proficiency levels. Nevertheless, the study found that GPT-4o holds potential as a supplementary tool for speaking test preparation, especially for modeling ideal responses, providing self-directed feedback, and enabling repeated practice in autonomous learning contexts. This research underscores the applicability of multimodal AI in Korean language education and suggests the need for future studies that compare various multimodal models and examine response patterns under more complex input conditions combining visual, contextual, and interactive elements.

1. 서론

말하기 능력은 고등 교육 전반에서 핵심적인 의사소통 역량으로 대학과 대학원 등 고등 교육 기관에서도 학습자의 말하기 능력이 학업 수행과 학문적 소통에 필수적인 요소로 인식되고 있다. 대학의 교양 한국어 과정에서도 이러한 요구에 부응하여 말하기와 관련된 교과목을 필수적으로 개설하고 있다.

한편 한국어 숙달도 시험에서도 학습자의 실제 의사소통 능력을 종합적으로 측정하려는 평가 도입이 활발히 이루어지고 있다. 2022년 9월 처음 시행된 SKA(세종한국어평가)뿐만 아니라 같은 해 11월부터 TOPIK(한국어능력시험)에서도 말하기 시험을 도입하면서 말하기 영역에 대한 독립적인 평가가 이루어지며 한국어 말하기 시험이 제도적으로 정착되고 있다. 향후 취업, 유학, 영주권 심사 등 다양한 행정적 절차에서 말하기 평가 결과가 실질적인 지표로 활용되며 응시자 수 또한 꾸준히 증가할 것으로 전망된다.

이러한 공인 한국어 말하기 시험에서는 일상생활 담화뿐만 아니라 학술적 맥락에서 요구되는 자료를 해석하고 자신의 주장을 근거와 함께 제시하는 고차원적 말하기 과제도 포함되어 있다. 이는 초중급 수준의 일상적 말하기뿐만 아니라 고등 교육 환경에서 학문적 수행을 위한 말하기 능력을 평가하려는 취지를 반영한 것으로도 볼 수 있다. 따라서 국내 대학에 재학 중인 외국인 유학생들에게 말하기 평가에 대한 준비는 대학 생활에서 필요한 말하기 능력과 학업 수행 역량을 강화하는 데도 기여할 수 있다.

그러나 말하기 평가의 중요성에 비해 학습자가 실제 시험을 대비할 수 있는 학습 도구나 방법에 대한 논의는 매우 부족한 실정이다. 말하기는 특성상 반복적 연습과 실시간 피드백이 중요한 영역임에도 불구하고, 해외 한국어 학습자들은 한국어 말하기 연습의 기회를 충분히 가지지 못하는 경우가 많고, 국내 한국어 교육 기관에서도 교실 수업이나 전체적 피드백 중심의 전통적인 방식이 주를 이루고 있다. 특히 말하기 시험 준비를 위해서는 혼자서 말하기를 연습하거나 실제 채점 기준에 기반한 자기 점검이 필요하므로 말하기 시험에 효과적으로 대비할 수 있는 대안적 학습 도구의 필요성이 제기되고 있다.

이러한 배경에서 최근 생성형 AI를 중심으로 한 인공지능 기술의 비약적인 발전은 말하기 평가 대비를 위한 학습에 새로운 가능성을 제시할 수 있다. 생성형 AI는 사용자의 입력에 대해 자연스러운 언어로 응답을 생성할 수 있을 뿐 아니라 텍스트, 이미지, 음성 등 다양한 입력을 통합적으로 인식⋅처리할 수 있는 ‘멀티모달(Multimodal)’ 기능을 활용할 수 있기 때문이다. 2024년 5월 OpenAI에서 공개한 GPT-4o는 이러한 멀티모달 기능을 본격적으로 탑재한 모델로 실시간 음성 대화가 가능하며 사용자의 말하기 입력을 이해하고 반응하는 능력을 갖추고 있다1). 이에 따라 GPT-4o는 기존의 텍스트 기반 채팅 인터페이스를 넘어 실제 말하기 상황에 가까운 상호작용을 가능하게 하였다.

이에 본 연구에서는 멀티모달 기반의 음성 상호작용 기능을 갖춘 생성형 AI인 GPT-4o를 활용하여 한국어 말하기 평가 문항에 대한 응답 생성 과정과 이에 대한 전문가 채점 결과를 분석하였다. 기존의 한국어 말하기 평가 연구는 텍스트 기반 입력에 의존하여 생성형 AI의 응답을 분석(양세정 & 배영환, 2023; 김유미, 2024a, 2024b, 2024c)하였으나 본고에서는 음성, 이미지, 텍스트 등 다양한 입력 방식이 통합된 멀티모달 환경을 설정하고, 실제 말하기 평가 상황과 유사한 조건에서 AI의 언어 생성 능력을 검토하고자 하였다.

이를 위해 TOPIK 말하기 평가 문항을 GPT-4o에 제시하고 해당 문항에 대한 음성 기반 응답을 생성하게 한 후, 이를 한국어 교육 전문가들이 채점 기준에 따라 평가하였다. 전문가들의 채점 결과를 바탕으로 GPT-4o가 말하기 평가 응답자로서 어느 정도의 언어 생성 역량을 갖추고 있는지, 문항 유형과 평가 항목별로 어떤 특징과 경향을 보이는지에 대해 구체적으로 분석할 것이다. 이를 통해 향후 AI 기반 말하기 평가 대비 학습 도구 개발에 기초 자료를 제공하는 동시에 생성형 AI의 언어 평가 활용 가능성과 그 한계에 대한 교육적 논의를 이어가고자 한다.

2. 생성형 AI와 한국어 평가

2.1. 멀티모달 생성형 AI의 기술적 배경과 교육적 함의

1956년 ‘지능을 가진 기계’의 개념으로 인공지능(Artificial Intelligence, AI)이라는 용어가 사용된 이후 인간의 사고를 모방하려는 기술적 시도는 지속적으로 발전되어 왔으며(박상길, 2024) 규칙 기반의 인공지능에서 머신러닝, 딥러닝을 거쳐 생성형 인공지능(generative AI)에 이르렀다. 특히 OpenAI에서는 GPT(Generative Pre-trained Transformer)를 발표하면서 2020년 GPT-3를 기점으로 본격적인 ‘생성형 AI’ 시대를 열었다(Brown et al., 2020). GPT-3, GPT-3.5, GPT-4 등은 모두 사용자의 프롬프트에 따라 매우 탁월한 응답을 내놓았으나 여전히 텍스트 입력과 출력에 한정되어 있었다. 이러한 기술적 한계를 넘어선 모델이 바로 GPT-4o이다. 모델명의 ‘o’는 ‘omni’를 의미하며, 이는 모든 종류의 입력과 출력 모달을 포괄한다는 의미를 가지고 있다. 즉, GPT-4o는 최초의 실시간 멀티모달 통합 모델로 텍스트, 음성, 이미지 등 다양한 입력과 출력을 단일 뉴럴 네트워크 안에서 실시간으로 처리할 수 있도록 설계된 것이다2). 사용자와 생성형 AI 간에 인간의 평균 응답 속도와 유사한 속도로 실시간 음성 상호 대화가 가능하며, 억양, 강세, 감정 표현 등 준언어적 요소까지 일정 수준 반영되어 있을 뿐만 아니라 이미지 인식 기능까지 더해져 매우 몰입도 높은 말하기 연습 환경을 제공할 수 있게 된 것이다.

GPT-4o에서 강조하고 있는 ‘멀티모달’이라는 개념은 최근 크게 주목받고 있지만 훨씬 이전부터 인간의 의사소통, 학습, 커뮤니케이션 구조에 대한 연구에서 다루어져 왔다(Oviatt, 1999; Kress & van Leeuwen, 2001; Mayer, 2009). 멀티모달을 통한 상호작용은 다양한 정보 형태를 통합적으로 처리하는 인간과 유사한 의사소통 구조를 기반으로 한 개념이며 언어학이나 교육 등 여러 학문 분야에서 오랜 시간 이론적 토대를 다져왔다. 최근 생성형 AI를 통해 이 개념을 기술적으로 구현할 수 있게 되면서 외국어 말하기 교육이나 평가 상황에서도 이에 대한 적용 방안이 구체적으로 제시되고 있다.

2.2. 한국어 평가 관련 연구

생성형 AI를 한국어 평가에 적용하려는 연구는 주로 쓰기 평가를 중심으로 활발하게 이루어져 왔다. 먼저 자동 채점에 대한 기초 연구로는 이진⋅정진경⋅김한샘(2023), 백재파(2023) 등이 있으며, 쓰기 교수⋅학습에서 자동 피드백의 실제 적용 가능성을 탐색(권태현⋅박현, 2023; 김지연, 2024)한 연구도 있다. 또 권경문⋅최숙기(2025)는 ChatGPT 기반 쓰기 자동 피드백의 질을 다면적으로 평가하고, 학습자의 인식과 수용 가능성을 분석하였으며, 최숙기(2025)는 생성형 AI 피드백의 질을 평가할 수 있는 루브릭을 개발하고 타당성을 검토하였다. 최근에는 이진(2025)에서 GPT-4o와 GPT-4.5를 활용하여 생성형 AI의 쓰기 평가 가능성을 직접 비교하였고, 이선빈(2025)에서는 ChatGPT를 활용한 쓰기 피드백 사례를 통해 그 활용 가능성과 한계를 분석하였다. 이들 연구는 모두 텍스트 기반 생성형 AI가 제공하는 문법, 내용, 표현 측면의 피드백 기능과 채점 기능을 중심으로 이루어졌으며, 쓰기 영역에서는 일정 수준의 교육적 효과를 보여주었다.

한편 한국어 말하기 평가에서는 주로 생성형 AI의 텍스트 기반 인터페이스를 활용하여 말하기 연습 모형을 개발하거나 학습자에게 제공할 피드백 방식에 초점을 맞추는 경향을 보였다. 양세정⋅배영환(2023)은 TOPIK 말하기 시험에서 발음 교육 개선을 위해 AI 기반 자동 채점 기술을 활용하는 방안을 제시하면서 발음, 속도, 억양 등 발화 전달력을 중심으로 한 말하기 평가 가능성을 탐색하였다. 또 김유미(2024a), 김유미(2024b)에서는 ChatGPT를 학습 피드백 도구로 활용하여 TOPIK 말하기 평가에 대비할 수 있는 연습 모형을 개발하여 자기 점검 및 말하기 전략 개선을 유도하였고, 김유미(2024c)는 TOPIK 말하기 평가의 자료 해석하기 문항에 특화된 피드백 프롬프트를 설계하고 그 효과를 검증하였다. 그러나 이들 연구는 모두 텍스트 기반으로 이루어졌으며, 멀티모달을 활용한 음성 기반 실시간 상호작용이나 인지적 발화처리 과정까지는 반영하지 못하였다. 또 생성형 AI의 언어 생성 능력이나 말하기 수행 응답자로서의 활용 가능성 역시 다루지 못했다.

따라서 이 연구에서는 멀티모달 기반 생성형 AI 모델을 활용하여 실제 말하기 평가와 유사한 상호작용 환경을 구성하고, AI의 언어 생성 역량을 전문가 채점 기준에 따라 분석하고자 한다. 이로써 기존 연구의 이러한 한계를 보완하고, 말하기 수행 평가 대비 학습 도구로서 생성형 AI의 실질적인 가능성과 한계를 탐색할 것이다.

3. 연구 설계 및 분석 절차

3.1. 실험 설계

이 실험에서는 멀티모달 기반 음성 상호작용 기능을 갖춘 생성형 AI가 한국어 말하기 평가에서 어느 정도 수준의 언어 수행 능력을 보이는지를 알아보고자 하였다.

먼저 GPT-4o의 멀티모달 기반 음성 상호작용 기능을 활용하기 위해 TOPIK 말하기 평가 문항을 기반으로 GPT-4o가 생성한 음성 응답을 수집하였다. 스마트폰3)을 사용하여 음성과 이미지, 텍스트를 모두 사용하여 AI를 피험자로 두고 말하기 시험을 실시하였다. 6개의 말하기 문항에 대해 각 3개의 다른 응답을 하게 한 후 채점을 실시하였다. 말하기 채점에는 총 18인의 한국어 교육 전문가가 참여하였다. 참여자는 한국어 교육 분야 박사 학위 소지자(15인) 및 박사 수료자(3인)로 구성되었으며, 모두 공인 한국어 말하기 평가(TOPIK, SKA)의 출제 또는 채점 유경험자이거나 관련 연구 실적을 보유하고 있다. 이들의 한국어 교육 경력은 평균 10.5년(범위: 5년-18년)이었다.

이 실험에서 설정한 연구 문제는 다음과 같다.

  • 1. 문항 유형에 따라 GPT-4o의 언어 생성 능력에 차이가 있는가?

  • 2. 각 문항 유형에서 어떤 채점 기준 항목이 상대적으로 높거나 낮게 평가되는가?

  • 3. GPT-4o 응답의 강점과 한계는 무엇인가?

첫째, GPT-4o의 말하기 응답에 대한 전문가 채점 결과를 통해 문항 유형별 응답 능력을 파악할 것이다. 둘째, 문항 유형에 따라 언어 생성 능력에 어떤 차이가 나타나는지를 검토할 것이다. 마지막으로 전문가들의 서술형 피드백을 통해 GPT-4o가 생성한 응답의 강점과 한계를 살펴볼 것이다.

3.2. 연구 절차

본 연구는 크게 본 연구는 AI 응답 생성, 채점 자료 구축, 전문가 채점의 3단계로 진행되었다. 우선 AI 응답 생성 단계에서는 실시간 음성 상호작용 기능이 지원되는 스마트폰 ChatGPT 애플리케이션을 통해 18개의 음성 응답을 생성 및 수집하였다. 실제 시험과 동일한 환경을 구현하기 위해, 음성 질문은 음성으로, 그림 자료가 포함된 질문은 스마트폰 화면에 이미지를 제시하며 음성으로 질문하는 멀티모달 방식을 사용하였다. 이때, 응답의 질을 최적화하기 위해 사전 예비 실험을 통해 역할과 수준을 명시하는 프롬프트를 확정하여 일관되게 적용하였다. 모든 응답 생성 과정은 스마트폰의 ‘화면 녹화’ 기능으로 기록되었다. 다음으로 채점 자료 구축 단계에서는 녹화된 영상에서 음성 파일을 추출하여 온라인 채점 시스템(TeacherMade)에 탑재하였다. 끝으로 전문가 채점 단계에서는 18인의 연구 참여자가 온라인 채점 시스템에서 18개의 AI 응답을 독립적으로 평가하였다.

3.3. 평가 도구

본 연구를 위한 평가 도구는 크게 평가 문항, AI 응답 자료, 채점 기준, 온라인 채점 시스템의 네 가지이다. 우선 평가 문항은 문항 신뢰도와 타당도를 확보하기 위해, 국립국제교육원 TOPIK 공식 홈페이지4)에 공개된 6개 유형의 말하기 평가 유형별 문항을 그대로 활용하였으며 말하기 평가 문항5)<표 1>과 같다.

말하기 평가 문항

AI 응답 자료는 TOPIK 말하기 문항 6개에 대해 GPT-4o에서 3회씩 응답하도록 하였고 실시간 음성 기반 상호작용을 위해 GPT-4o를 실행하여 실제 말하기 시험과 같이 음성을 들려주거나 그림 자료를 보여 주었다. TOPIK 말하기 시험에서 음성과 텍스트를 함께 제공하는 문항은 본 실험에서도 두 가지 입력을 모두 제공하였다. 현재 실시간 음성 기반 상호작용은 웹 기반으로는 제공되지 않으며 스마트폰 앱에서만 가능하여 스마트폰의 ChatGPT 앱에서 말하기 시험을 시행하였다.

이때 AI는 프롬프트에 따라 응답 내용과 질이 달라진다는 점을 고려하여 프로프트 설계에 주의를 기울였다. 수차례 테스트를 통해 최적의 프롬프트 문장을 도출하였으며, 프롬프트 입력 시 고려했던 점은 다음과 같다6).

• 역할을 명시해야 한다.

 예) 지금 당신은 한국어 말하기 시험을 보는 외국인 학생입니다. 질문을 듣고 음성으로 대답해야 합니다.

• 6개의 시험 유형을 미리 파악하도록 하는 것이 좋다.

 예) 5번은 뉴스를 듣고 그래프 자료를 보면서 응답을 해야 하는 문제입니다.

• 응답의 시작 시점을 명확히 인지시켜야 한다.

 예) 이 문제는 여자의 말을 다 듣고 자신의 의견을 말해야 합니다.

• 문항의 숙달도 수준을 매우 명확하게 반복하여 강조해야 한다.

 예) 지금부터 당신은 한국어를 배우는 외국인이고, 초급 학생입니다. TOPIK 1급이나 2급 정도의 초급 학생입니다.

• 너무 복잡하거나 긴 문장이 나오지 않도록 모범 답을 참고하여 문장 수를 제한해야 한다.

 예) 이 문제는 초급 문제입니다. 30초 동안 대답하라고 되어 있지만 30초 동안 계속 말하지 않아도 됩니다. 한국어 초급 수준의 3문장으로 답해 주세요.

먼저 한국어 말하기 숙달도 시험 응시자라는 역할을 명확히 부여해야 하며, 각 문항의 목표 숙달도를 명확히 인지시켜 주어야 한다. 또 응답 문장 수를 제한하는 것이 좋다. 여러 차례에 걸쳐 반복해서 이 점을 인식시키지 않으면 초급 문제임에도 불구하고 고급 수준으로 주어진 시간을 모두 채워 대답을 하는 경우가 많다. 이렇게 되면 고급 학습자가 내놓은 응답을 초급 수준에서 채점을 해야 하기 때문에 실험이 제대로 이루어지기 어려워 숙달도 통제가 매우 중요하였다.

또한 지나치게 빠른 응답 속도로 인해 문제가 다 끝나지 않았는데 모두 듣지 않고 바로 응답을 하는 경우도 많았다. 응답을 해야 하는 시점과 응답을 위해 참고해야 할 것을 완전히 학습시키기 위해 6개 문항의 진행 순서와 포함된 자료, 응답 시점 등에 대한 프롬프트를 세심하게 설계하여 시험 응시 전에 모두 인지하도록 하였다.

한편 평가 도구는 국립국제교육원(2023)의 ‘TOPIK 말하기 평가 요소’를 기반으로 하였다. 채점에 사용된 평가 요소는 <표 2>와 같으며, 채점자들이 채점에 참고할 수 있도록 이 표를 함께 제시하였다.

TOPIK 말하기 평가 요소(국립국제교육원, 2023)

이와 같은 평가 요소를 적용하여 각 응답당 9개의 5간 척도 평가 문항과 1개의 서술형 문항을 제작하였다. 또 채점표에서는 <표 2>의 4점에 해당할 경우 5번에 표시하고 0점일 경우 1번에 표시하도록 하였다. 실제 채점자들에게 제공된 질문은 다음과 같다7).

3.3.1. 내용 및 과제 수행

  • • 과제를 적절한 내용으로 표현하였는가? (기준 1)

  • • 주어진 과제를 풍부하고 충실하게 수행하였는가? (기준 2)

  • • 담화 구성이 조직적으로 잘 이루어졌는가? (기준 3)

3.3.2. 언어 사용

  • • 담화 상황에서 적합한 언어를 사용하였는가? (기준 4)

  • • 어휘와 표현을 다양하고 풍부하게 사용하였는가? (기준 5)

  • • 어휘와 표현을 정확하게 구사하였는가? (기준 6)

3.3.3. 발화 전달력

  • • 발음과 억양이 어느 정도 이해 가능한가? (기준 7)

  • • 발화 속도가 자연스러운가? (기준 8)

3.3.4. 기타 질문

  • • 이 발화는 초급 수준의 어휘와 표현으로 이루어졌다고 생각하십니까? (기준 9)

  • • 특별한 의견이 있으시면 자유롭게 기술해 주십시오.

마지막으로 온라인 채점 시스템은 채점의 편의성과 정확성을 높이고자, 평가 문항, AI 음성 응답 파일, 채점표를 통합적으로 제공할 수 있는 온라인 평가 도구인 ‘Teacher Made’를 활용하여 채점 환경을 구축하였다. TeacherMade는 지류 시험지의 형태를 온라인상에서 동일한 모습으로 구현할 수 있는 프로그램이다. 그러므로 하나의 파일을 듣고 9개의 객관식 평가와 1개의 서술 평가를 동시에 진행해야 하는 상황에서 매우 유용하게 사용할 수 있기 때문에 이 프로그램을 선택하였다. 그뿐만 아니라 음성 파일 탑재가 가능하여 손쉽게 음성과 문항, 평가 기준을 한눈에 확인할 수 있고, 응답 결과 역시 테이블 형태로 자동 정리된다는 장점이 있다. 이에 각 전문가들은 [그림 1]과 같이 TeacherMade로 제작된 온라인 채점 시스템에 접속하여 6개의 각 문항당 3개의 응답, 즉 18개의 응답에 대해 채점을 진행하였다.

[그림 1]

말하기 채점 화면

3.4. 자료 분석

생성된 18개의 응답은 문항별로 분류하였고, 18인의 전문가 채점 결과를 바탕으로 GPT-4o가 평가 응답자로서 갖는 언어 생성 역량과 그 특징을 분석하였다. 이를 위해 IBM SPSS Statistics 28.0을 사용하여 반복측정 분산분석(Repeated Measures ANOVA)을 실시하였다. 반복측정 분산분석은 동일한 대상이 여러 조건에서 반복적으로 측정된 데이터를 분석할 때 사용하는 통계 기법이다(박동권, 2002). 본 연구에서는 AI가 생성한 응답들에 대해 문항 유형별 수행 차이를 비교하고자 하였기 때문에 하나의 AI가 서로 다른 유형의 문항(총 6문항)에 대해 일관된 평가 기준(9개 항목)으로 점수를 부여받았다. 그러므로 각 응답은 독립된 집단이 아니라 동일한 집단 내의 반복된 측정으로 간주할 수 있다. 따라서 반복측정 분산분석을 활용하면 문항 유형에 따른 점수 차이가 통계적으로 유의미한지를 정확하게 검증할 수 있으며, GPT-4o가 어떤 유형의 문항에 상대적으로 더 우수하거나 취약한 언어 생성 성능을 보이는지를 확인하는 데에도 적절한 분석 방법이라고 보았다.

한편 채점자 간 신뢰도 분석 결과, 모든 문항에서 채점자 간 점수 편차는 1점 이내였고, 대부분 문항에서 0.2점 이하로 나타나 전문가들 간의 평가 일치도가 매우 높은 수준임을 확인할 수 있었다. 가령 1번 문항의 첫 번째 응답에 대한 각 항목별 평균 점수는 4.56-5.00의 범위에 분포하였으며, 대부분 항목에서 표준편차는 0.10 미만이었다. 이와 같은 일관성을 보다 명확히 검증하기 위해 Cronbach’s α 계수를 산출한 결과, 모든 평가 항목에서 α 값이 0.96 이상으로 나타났다. 채점자 수가 많은 상황(18명)에서도 높은 α 계수를 나타냈다는 점에서 본 연구의 채점 점수 데이터는 신뢰도가 높은 자료임을 시사한다. 수집된 자료의 구체적 분석 절차는 [그림 2]와 같다.

[그림 2]

분석 절차

4. 연구 결과

4.1. 문항 유형별 결과 분석

본 연구는 말하기 문항 유형에 따라 생성형 AI의 응답이 어떻게 달라지는지를 정량적으로 확인하기 위해 반복측정 분산분석을 실시하였다. 동일한 항목이라 하더라도, 문항 1부터 문항 6까지 유형이 상이한 평가 문항에 대해 AI의 응답이 얼마나 일관되게 평가되는지를 분석하였다. 응답 데이터의 전반적인 분포를 파악하기 위해 기술통계 분석과 반복측정 분산분석을 함께 실시하였으며 그 결과는 <표 3>과 같다.

문항별 반복측정 분산분석 결과

전체 6개 문항의 평균 점수를 비교한 결과 GPT-4o는 전반적으로 5번 ‘자료 해석하기’와 6번 ‘의견 제시하기’에서 가장 높은 평균 점수를 보였으며, 2번인 ‘그림 보고 역할 수행하기’는 상대적으로 낮은 평균을 보였다. 또한 표준편차 역시 2번 문항에서 채점자 간 점수 차가 비교적 크게 나타났음을 알 수 있다. 이는 2번 문항에서 요구하는 화용적 적절성에서 AI의 응답 수행력에 편차가 있다고 해석할 수 있다.

반복측정 분산분석 결과, 3, 4, 5번은 는 모두 유의수준 p<.05 이하로 통계적으로 유의미한 차이를 나타냈다. 특히 4번 ‘대화 완성하기’는 매우 큰 F값을 보여 상대적인 점수 차이가 있었음을 알 수 있다.

반면, 1번의 경우 유의수준을 충족하지 못해 경계선상의 결과를 보였으며, 2, 6번은 유의수준을 초과하여 유의하지 않은 것으로 나타났다. 이는 GPT-4o가 2번이나 6번에 대해서는 여러 번의 응답에서 비교적 일관된 수행을 보였다는 해석이 가능하다.

요컨대 GPT-4o의 말하기 평가에 대한 수행은 문항 유형에 따라 통계적으로 유의한 차이를 보였으며, ‘그림 보고 이야기하기, 대화 완성하기, 자료 해석하기’에서는 AI 응답이 일관되지 않았다. 즉 문항의 구조나 요구되는 발화 전략의 난이도에 따라 AI가 생성하는 말하기 응답의 완성도에 차이가 존재한다고 볼 수 있다.

4.2. 채점 기준별 결과 분석

채점 기준별로 살펴보았을 때도 GPT-4o가 생성한 말하기 응답에 대해 전문가들이 부여한 평균 점수는 전반적으로 높은 수준을 보였다. 평균, 표준편차 및 반복측정 분산분석 결과는 <표 4>와 같다.

평가 기준별 분석 결과

<표 4>를 분석해 보면 ‘과제 수행 및 담화 구성(기준 1-3)’에 해당하는 항목들이 평균 4.72-4.78로 가장 높은 평가를 받았다. 이들 항목은 표준편차가 0.20 이하로 낮게 나타나 전문가 간 평가 일치도 또한 높았음을 알 수 있다. 이는 GPT-4o가 과제의 핵심 내용을 명확하게 파악하고 비교적 안정된 구조로 담화를 구성할 수 있음을 보여준다.

다음으로 ‘언어 사용(기준 4-6)’에 대한 평가에서도 평균 점수는 대체로 4.70 이상으로 높은 수준을 유지하였으며, 정확성(기준 6)의 경우 평균 4.79, 표준편차 0.18로 가장 높은 평가를 받았다. 그러나 유의성에서 ‘경계’(.05<p<.10)로 나타나 통계적으로는 유의하지 않으나 문항 간 점수 차이가 있었을 가능성을 보여주었다. 또 적합성(기준 4)의 측면에서는 반복측정 분산분석 결과 문항 간 점수 차이가 통계적으로 유의미하게 나타나(p=.0082), GPT-4o가 담화 상황에 따라 항상 안정적으로 적합한 언어를 생성하는 것은 아님을 알 수 있다.

한편, 발화 전달력 및 기타 질문(기준 7-9) 항목에서는 평균 점수가 다른 항목에 비해 다소 낮은 경향을 보였다. 발음과 억양 이해도(기준 7)와 숙달도 여부 판단(기준 9)은 평균이 각각 4.61과 4.66, 표준편차가 0.21, 0.19로 나타났으며, 채점자 간 평가에 비교적 큰 분산이 있었음을 보여준다. 그러나 GPT-4o의 발화가 초급 수준보다는 크게 높았다는 서술문을 통해 부정적인 평가로 인해 낮은 점수를 보인 것은 아니었다.

반복측정 분산분석 결과에 따르면, 9개 항목 중 8개 항목에서 문항 간 점수 차이가 통계적으로 유의미하게 나타났으며(p < .05), 특히 기준 1-5에 해당하는 항목들은 ‘p<.01’로 매우 유의미한 차이를 보였다. 이는 문항 유형에 따라 GPT-4o의 수행 양상이 항목별로 다르게 드러났음을 의미하며, 언어 적합성, 발음, 초급 수준 판단 등에서 문항 특성과 발화 방식의 상호작용이 있었을 가능성을 시사한다.

결론적으로 GPT-4o는 한국어 말하기 평가에서 전반적으로 높은 수준의 응답을 생성하였으며, 평가 항목별로는 과제 수행과 언어 정확성 영역에서 특히 강한 성능을 보였다. 그러나 발화 전달력이나 담화 적합성과 같은 화용적 언어 능력에 대한 평가는 문항 유형에 따라 다소 유동적인 경향을 보였으므로 향후 AI 기반 말하기 피드백 설계 시 화용적 적절성에 유의해야 함을 함을 알 수 있었다.

4.3. GPT-4o 응답에 대한 전문가 의견

본 연구에서는 정량적 채점 외에도 GPT-4o의 말하기 응답에 대한 전문가들의 정성적 피드백을 수합하여 분석하였다. 문항별로 살펴보면 다음과 같다.

먼저 1번은 기초적인 자기소개 및 일상 정보에 답하는 유형으로, GPT-4o의 응답은 전반적으로 초급 학습자 수준에 부합하는 간단하고 명료한 구조를 보였다. 그러나 ‘그리고’ 등의 접속사가 반복적으로 사용되어 단조롭다는 의견도 다수 제기되었고, ‘전주천’과 같은 매우 구체적인 지명에 대해 언급하는 것은 실제 외국인 학습자가 발화하기 힘든 부분이라는 지적도 있었다. 또 ‘한옥’을 ‘한욱’으로 발음하는 등 발음 오류도 지적되었다. 2번의 경우 전문가들은 GPT-4o가 문장 구조와 정보 전달은 잘 수행했지만, ‘빨리감기 느낌이 난다’고 언급할 정도로 발화 속도가 지나치게 빠르며 억양이 인위적이라는 점을 반복적으로 지적하였다.

3번 문항은 그림을 보고 이야기를 구성하는 과제로 GPT-4o의 응답은 문법적 완성도와 논리적 전개 측면에서 높은 평가를 받았다. 다만 문장의 길이가 길고 복잡하여 발화 전반의 억양이나 문장단위 호흡 조절이 부자연스럽다는 평이 다수 제기되었다. 또 ‘호흡을 쉬지 않고 끝까지 이어 말하는 특성’ 때문에 사람보다는 AI 화자에 가까운 느낌을 준다는 피드백도 있었다. 4번의 대화의 맥락에 맞게 대화 완성하기 문항은 맥락 이해가 중요한 과제이다. 전문가들은 GPT-4o의 표현이 중급 수준 이상에 해당하며 논리적이라고 평하였다. 그러나 상황 이해가 부족하거나 부자연스러운 응답이 있었다는 지적도 함께 나왔다. 특히 발화 속도와 억양의 급격한 변화가 청해의 집중도를 떨어뜨린다는 지적이 있었다.

5번과 6번은 고급 수준의 문항이다. 5번에서는 GPT-4o의 응답이 ‘모범답안에 가까울 정도로 정확하고 구조적’이라는 점에서 긍정적으로 평가받았다. 그러나 ‘인프라’, ‘친환경’ 등을 사용한 것에 대해서는 고급 어휘 사용이 인상적이라는 평과 실제 외국인 학습자의 수준과는 거리가 있다는 평이 공존하였다. 6번 문항에 대해서는 ‘재발 방지’, ‘관계 회복’ 등 고급 개념이 사용되었으며 응답의 구조도 설득력 있게 구성되었다고 하였다. 그러나 전문가들은 해당 응답들이 ‘현실적으로 학습자가 생성하기 어려운 수준’이라는 데 의견을 모았다. 또한 일부 발음 오류(예: ‘갈등’ → ‘칼등’)나 어색한 문장 호흡이 지적되었고, 논리적 연결성 부족, 인공적인 어휘 사용 등이 지적되었다.

전문가들의 의견을 종합하면 GPT-4o는 문법적 정확성과 논리적 구조 측면에서는 말하기 평가 대비를 위한 유용한 학습 도구가 될 수 있을 것으로 보이지만 발화의 자연스러움과 억양, 상황 맥락에 따른 화용적 적절성 면에서는 한계가 뚜렷하게 드러났다. 특히 초급 학습자 수준에 맞지 않는 고급 어휘와 복잡한 문장 구조, 빠른 발화 속도 등은 발화 연습에 있어 문제로 지적되었으다. 따라서 GPT-4o를 말하기 평가 대비에 활용할 때는 숙달도 수준에 적합한 프롬프트 설계가 필요하며 발화의 정확성 및 적절성에 대한 검증이 필요함을 알 수 있었다.

5. 결론 및 제언

본 연구는 멀티모달 기반 음성 상호작용 기능을 탑재한 생성형 인공지능 GPT-4o를 활용하여 한국어 말하기 평가 문항에 대한 응답 생성 능력을 탐색하고 그 가능성과 한계를 분석하고자 하였다. 이를 위해 TOPIK 말하기 평가 문항 6개에 대해 GPT-4o의 음성 응답을 수집하였고, 한국어 교육 전문가 18인의 채점을 통해 유형별, 항목별 수행 특성을 종합적으로 분석하였다.

분석 결과 GPT-4o는 전반적으로 높은 수준의 문법적 정확성과 논리적 구조를 갖춘 응답을 생성하였으며, 특히 ‘자료 해석하기’ 및 ‘의견 제시하기’ 문항에서 가장 높은 평가를 받았다. 채점 기준별로는 ‘과제 수행’과 ‘언어 정확성’ 영역에서 우수한 성능을 보였으나, ‘화용적 적절성’이나 ‘발화의 자연스러움’, ‘숙달도 수준 판단’ 등의 항목에서는 상대적으로 낮은 점수를 받았다. 또 반복측정 분산분석 결과를 통해 문항 유형과 채점 항목에 따라 GPT-4o의 수행이 통계적으로 유의미한 차이를 보였으므로 생성형 AI의 언어 생성 능력이 평가 과제의 성격에 따라 달라질 수 있음을 알 수 있다.

또한 전문가들의 정성적 피드백을 종합한 결과, GPT-4o는 응답 수준이 지나치게 높거나 인위적이라는 평가가 많았다. 그리고 빠른 발화 속도, 억양의 부자연스러움, 문장 단위 호흡 부족 등도 지적되었다. 그럼에도 불구하고 GPT-4o의 응답은 학습자의 모범 답안 예시나 비교 분석 자료, 피드백 제공 도구로서의 활용 가능성을 충분히 엿볼 수 있었다.

결론적으로 GPT-4o는 실시간 음성 상호작용 기능을 통해 실제 말하기 평가 상황과 유사한 조건에서 한국어 발화 연습이 가능하다는 점에서 학습자의 말하기 평가 대비를 위한 새로운 대안적 학습 도구로 활용될 수 있다고 본다. 특히 일대일 피드백이 어려운 환경이나 자율 학습 맥락에서 GPT-4o를 통한 반복 연습과 오류 수정, 표현 확장 등에 있어 일정 수준의 효과를 기대할 수 있을 것이다.

그러나 GPT-4o의 응답은 학습자 수준을 초과하는 고급 어휘, 단정적 구조, 빠른 발화 속도 등을 포함하고 있어 이를 그대로 학습하는 데는 한계가 있다. 즉 이번 실험을 통해 확인한 발화 전달력의 한계는 현재의 음성합성기술(TTS)이 아직 인간 고유의 미묘한 억양, 강세, 휴지 등 초분절적 요소를 완벽하게 구현하지 못함을 보여준다. 따라서 말하기 평가 대비에 GPT-4o를 활용할 경우, 학습자의 숙달도 수준에 맞는 프롬프트 설계와 적절한 교사의 안내, 응답 분석 활동이 반드시 병행되어야 한다. 예컨대, GPT-4o의 응답을 학습자가 듣고 오류를 찾아 수정하거나, 유사한 문장을 학습자 수준에 맞게 재구성해 보는 등 여러 교육적 방법을 시도해 볼 수 있다.

요컨대 본 연구는 멀티모달 생성형 AI인 GPT-4o가 한국어 말하기 평가에서 문법적 정확성과 어휘적 풍부함 측면에서는 인간 고급 화자에 준하는 높은 언어 생성 능력을 보이지만, 발화의 자연스러움과 내용의 깊이 측면에서는 한계를 지니고 있음을 객관적 실험을 통해 확인했다는 점에서 의의를 갖는다. 특히 고등 교육 단계에서 학습자 맞춤형 피드백 제공, 자율 학습 지원, 학습 동기 유발 등의 측면에서 GPT-4o와 같은 도구의 활용 가능성을 확인할 수 있었다. 앞으로 말하기 능력의 제도적 활용도 확대와 함께 이를 교육적으로 지원할 수 있는 생성형 AI 기반 환경의 고도화가 더욱 요구될 것으로 보인다.

그러나 본 연구는 GPT-4o라는 단일 모델을 대상으로 하였다. 향후 다양한 멀티모달 AI 모델의 언어 생성 능력을 비교 분석하는 연구를 통해 기술 발전에 따른 변화를 지속적으로 추적할 필요가 있으며 프롬프트에 따라 응답이 어떻게 변화하는지에 대한 고찰도 필요할 것이다. 음성 외에도 시각적 자극(이미지)이나 맥락적 변인(역할, 상황 등)을 조합한 복합 입력 환경에서의 AI 응답 양상에 대한 정교한 분석이 뒤따라야 할 것이다.

References

1. Baek J. P. 2023;Design direction of AI-based KFL writing automatic scoring model. Korean Language Studies 73:129–153. [백재파. (2023). AI 기반 KFL 작문 자동 채점 모델 설계 방향. 우리말연구, (73), 129-153.].
2. Brown T. B, Mann B, Ryder N, Subbiah M, Kaplan J, Dhariwal P, Neelakantan A, Shyam P, Sastry G, Askell A, Agarwal S, Herbert-Voss A, Krueger G, Henighan T, Child R, Ramesh A, Ziegler D. M, Wu J, Winter C, Amodei D. 2020;Language models are few-shot learners. Advances in Neural Information Processing Systems 33:1877–1901.
3. Choi S. G. 2025;Development and validation of an evaluation tool for generative AI-based Korean writing feedback. Cheongram Korean Language Education 103:227–263. [최숙기. (2025). 생성형 AI 기반 한국어 글쓰기 피드백의 질 평가 도구 개발 및 타당화 연구. 청람어문교육, (103), 227-263.].
4. Kim J. Y. 2024;Effectiveness and limitations of using AI-based writing automatic feedback programs in writing classes:Focused on the KEEwi application in a reading and expression course. Yeongju Language and Literature 58:355–386. [김지연. (2024). 글쓰기 수업에서 AI 기반 글쓰기 자동 피드백 프로그램 활용의 효과와 한계 - 독서와표현 교과에서 키위(KEEwi) 활용 사례를 중심으로. 영주어문, 58, 355-386.].
5. Kim Y. M. 2024a;Developing and exploring the effectiveness of a ChatGPT-based TOPIK speaking practice model as a learning feedback tool. Korean Language Education as a Foreign Language 74:1–35. [김유미. (2024a). 학습 피드백 도구로서 ChatGPT를 활용한 TOPIK 말하기 연습 모형 개발 및 효과 탐색. 외국어로서의 한국어교육, 74, 1-35.].
6. Kim Y. M. 2024b;Development and application of a ChatGPT-based feedback model for TOPIK speaking assessment. Bilingual Research 97:1–37. [김유미. (2024b). ChatGPT 기반 TOPIK 말하기 평가 피드백 모형 개발 및 적용. 이중언어학, (97), 1-37.].
7. Kim Y. M. 2024c;Designing and validating feedback prompts for question 5 in the TOPIK speaking assessment:A case study using generative AI. Korean Language and Literature Education 49:161–194. [김유미. (2024c). TOPIK 말하기 평가 5번 문항에서 피드백 프롬프트의 설계 및 효과 검증:생성형 AI 활용 사례를 중심으로. 한국어문교육, (49), 161-194.].
8. Koo T. K, Li M. Y. 2016;A guideline of selecting and reporting intraclass correlation coefficients for reliability research. Journal of Chiropractic Medicine 15(2):155–163.
9. Kress G, Van Leeuwen T. 2001. Multimodal discourse:The modes and media of contemporary communication. Arnold Publishers.
10. Kwon K. M, Choi S. G. 2025;A study on the quality evaluation of AI-based Korean writing automatic feedback. Cheongram Korean Language Education 104:205–244. [권경문, 최숙기. (2025). AI 기반 한국어 글쓰기 자동 피드백의 질 평가 연구. 청람어문교육, (104), 205-244.].
11. Kwon T. H, Park H. 2023;Exploring automatic feedback methods for writing instruction. Korean Language Education 181:73–118. [권태현, 박현. (2023). 쓰기 교수⋅학습을 위한 자동 피드백 방안 탐색. 국어교육, (181), 73-118.].
12. Lee J. 2025;Exploring the possibility of Korean writing assessment using LLMs:A comparison of GPT-4o and GPT-4.5. Grammar Education 53:281–314. [이진. (2025). 거대언어모델(LLM)을 활용한 한국어 학습자 쓰기 평가 가능성 탐색 연구 - GPT-4o와 GPT-4.5를 활용하여. 문법교육, 53, 281-314.].
13. Lee J, Jeong J. G, Kim H. S. 2023;Feature selection for automatic Korean writing scoring:Focusing on content and structure. International Language and Literature 99:433–471. [이진, 정진경, 김한샘. (2023). 한국어 학습자 쓰기 자동채점을 위한 자질 연구 -내용 및 구조 관련 채점 자질을 중심으로. 국제어문, (99), 433-471.].
14. Lee S. B. 2025;A study on the applicability of ChatGPT for Korean writing feedback. New Korean Language Education 142:527–562. [이선빈. (2025). 한국어 쓰기 피드백을 위한 ChatGPT의 활용 가능성 연구. 새국어교육, (142), 527-562.].
15. Mayer R. E. 2009. Multimedia learning. 2nd edth ed. Cambridge University Press.
16. Oviatt S. 1999;Ten myths of multimodal interaction. Communications of the ACM 42(11):74–81.
17. Park D. K. 2002. Analysis of variance and repeated measures data. Minyeongsa. [박동권. (2002). 분산분석과 반복측정자료. 민영사.].
18. Park S. G. 2024. AI knowledge for non-majors. Business Books. [박상길. (2024). 비전공자도 이해할 수 있는 AI 지식. 비즈니스북스.].
19. Yang S. J, Bae Y. H. 2023;A new approach to pronunciation instruction:Focusing on the TOPIK speaking test and AI-based automatic scoring. Baedalmal 73:117–142. [양세정, 배영환. (2023). 발음 교육의 새로운 접근:토픽 말하기 시험과 AI 기반 자동채점을 중심으로. 배달말, (73), 117-142.].

Notes

2)

OpenAI 홈페이지(https://openai.com/index/hello-gpt-4o)의 설명을 참조하였다.

3)

아직까지 멀티모달 기반의 실시간 음성 상호작용은 웹 기반에서는 구동이 되지 않는다.

5)

지면 관계상 삽화, 대화문, 뉴스 내용 등은 생략하였다.

6)

본고에서 제시한 프롬프트 설계상의 유의점은 AI가 적절한 말하기 응답을 하도록 하게 하기 위해 많은 시행착오를 거쳐 정리한 것이다.

7)

채점지에 있었던 5간 척도 표시는 생략하였다([그림 1] 참고).

Article information Continued

<표 1>

말하기 평가 문항

문항 말하기 문항
1 (초급) 질문에 대답하기 기초적인 질문에 적절하게 대답하기

질문) 어디에 여행을 가고 싶어요? 뭘 하고 싶어요? 하고 싶은 여행에 대해 이야기하세요.

2 (초급) 그림 보고 역할극 수행하기 그림 속 상황에 맞는 간단한 역할 수행하기

질문) 택시를 타고 있습니다. 택시 기사에게 내리고 싶은 곳을 이야기하세요. (택시 기사 발화 생략)

3 (중급) 그림 보고 이야기하기 연속된 그림을 보고 사건을 묘사하고 이야기 구성하기

질문) 민수 씨가 춤 경연 대회에 참가했습니다. 민수 씨에게 무슨 일이 있었는지 이야기하세요. (4개의 삽화 생략)

4 (중급) 대화 완성하기 대화의 맥락에 맞게 적절히 대응하여 대화 완성하기

질문) 두 사람이 인주숲에 놀이공원을 만드는 것에 대해 이야기하고 있습니다. 여자의 마지막 말을 듣고 남자가 한 말로 반대 의견을 말하십시오. (남녀 대화 생략)

5 (고급) 자료 해석하기 도표나 그래프 등 시각 자료를 해석하고 자신의 의견 진술하기

질문) 뉴스를 듣고 사회 현상을 설명하십시오. 그리고 그 현상의 이유와 전망에 대해 말하십시오. (그래프 자료 생략)

6 (고급) 의견 제시하기 특정 주제에 대해 자신의 견해를 논리적으로 제시하기

질문) 잘못에 대한 사과는 인간관계에서 발생한 갈등을 해결하는 중요한 실마리가 됩니다. 사과란 무엇입니까? 그리고 인간관계에서 사과는 왜 중요하고, 사과를 하는 올바른 태도는 무엇인지 자신의 생각을 말하십시오.

<표 2>

TOPIK 말하기 평가 요소(국립국제교육원, 2023)

점수 내용 및 과제 수행 언어 사용 발화 전달력
4 과제를 충분히 수행하며, 담화 내용이 긴밀하게 구성되어 있고, 일관된 흐름을 보인다. 주제나 상황에 적절한 어휘와 문법을 충분하게 사용하며, 오류가 거의 없다. 전반적으로 발음이 정확하고 억양이 자연스럽다. 또한 발화 속도가 적절하여 이해하기가 쉽다.

3 과제를 어느 정도 수행하며, 담화 내용이 비교적 긴밀하게 구성되어 있고, 대체로 일관된 흐름을 보인다. 주제나 상황에 적절한 어휘와 문법을 대체로 잘 사용하며, 간혹 사소한 오류가 있기는 하지만 소통을 방해하지 않는다. 발음에 사소한 오류가 있고 가끔 자연스럽지 못한 억양이 나타난다. 발화 속도가 다소 느리기는 하지만 이해하는 데에는 어려움이 없다.

2 과제를 일부 수행하며, 담화 내용의 긴밀성이 다소 부족하고, 관련이 없는 내용이 가끔 포함돼 일관성이 다소 부족하다. 주제나 상황에 적절한 어휘와 문법을 간혹 사용하기도 하나 대체로 수준에 비해 쉽고 단순한 어휘와 문법을 반복적으로 사용하며 오류가 빈번하다. 발음에 오류가 많고 자주 자연스럽지 못한 억양이 나타난다. 발화 속도도 느린 편이라서 이해하는 데에는 다소 어려움이 있다.

1 과제를 거의 수행하지 못하며, 담화 내용의 긴밀성이 매우 부족하고, 대부분 관련이 없는 내용이 이어져 일관성이 매우 부족하다. 주제나 상황에 적절한 어휘와 문법을 거의 사용하지 못하며 반복적으로 사용하는 경우가 많고 오류가 빈번하다. 발음에 오류가 매우 많고 전반적으로 자연스럽지 못한 억양이 나타난다. 발화 속도도 매우 느려서 이해하기 어렵다.

0 화자가 응답을 하지 않았거나 주제와 관계 없는 응답을 했다.

[그림 1]

말하기 채점 화면

[그림 2]

분석 절차

<표 3>

문항별 반복측정 분산분석 결과

문항 기술통계 분석 반복측정 분산분석


평균 표준편차 F값 p값 유의성
1번 4.79 0.10 2.19 0.0861 경계

2번 4.53 0.17 1.04 0.4503 유의하지 않음

3번 4.77 0.13 9.05 0.0001 유의함

4번 4.78 0.11 34.22 0.0 유의함

5번 4.86 0.09 3.34 0.0193 유의함

6번 4.83 0.08 0.21 0.9853 유의하지 않음

<표 4>

평가 기준별 분석 결과

(채점) 기준 기술통계 분석 반복측정 분산분석


평균 표준편차 F값 p값 유의성
기준 1 4.76 0.21 5.23 0.0021 유의함

기준 2 4.72 0.2 6.05 0.0009 유의함

기준 3 4.78 0.19 4.77 0.0035 유의함

기준 4 4.79 0.15 3.94 0.0082 유의함

기준 5 4.78 0.17 3.25 0.0186 유의함

기준 6 4.79 0.18 2.12 0.0795 경계

기준 7 4.61 0.21 4.20 0.0063 유의함

기준 8 4.7 0.21 3.67 0.0120 유의함

기준 9 4.66 0.19 2.59 0.0473 유의함