교양교육을 위한 인공지능 활용 서⋅논술형 평가 및 피드백 적용 사례 -‘지속가능발전의 이해’ 기초교양 강좌를 중심으로
Case of Application of Essay-type Evaluation and Feedback Using Artificial Intelligence for Liberal Arts Education : Focusing on the basic liberal arts course ‘Understanding Sustainable Development Goals’
Article information
Abstract
본 연구의 목적은 대학의 대규모 온라인 교양 강좌에서 인공지능 서술형 평가와 피드백 시스템을 적용한 사례의 결과를 밝힘에 있다. 이를 위해 A대학 2,600명의 학생이 수강하는 ‘지속가능발전의 이해’ 온라인 교양 강좌를 대상으로 학생들이 수행한 서술형 평가의 결과와 만족도를 조사하여 분석하였다. 연구 방법으로는 학생의 참여율의 변화를 확인하기 위한 빈도 분석과 트라젝토리 분석을 실시하였고, 학생들의 서술형 평가 응답 경향을 군집화하기 위하여 요인 분석을 활용하였다. 분석 결과 첫째, ‘지속가능발전의 이해’를 수강한 학생들은 14주차가 되어도 60%의 이상이 참여하였고, 10회 이상 참여한 학생이 70%가 넘었다. 둘째, 학생들의 평가 점수는 1주차에는 비슷한 점수대를 보이다가 14주가 되면서 점수의 폭이 커졌다. 그리고, 한 학기 강의 중간 지점인 7주차를 중심으로 점수차가 역전되는 집단이 있어, 유의 깊게 학생들의 학습 관리를 해줘야 하는 시기와 집단을 확인할 수 있었다. 셋째, 학생들의 AI 기반 퀴즈에 대한 만족도를 살펴봤을 때 AI 기반 퀴즈에 대한 자신의 적극적 참여도는 86.6%, AI 기반 퀴즈의 유용도는 83.1%가 긍정적으로 응답하였다. 한편, AI 기반 퀴즈의 다른 교양에 확대 도입과 동기부여 정도는 긍정적 비율이 각각 52.6%, 61.5%로 상대적으로 낮았지만, 부정적 비율 19.6%, 11.8%에 비해서는 월등히 높았다. 이러한 결과를 통해 학생 개별적으로 피드백을 제공하는 인공지능 활용 서술평 평가 피드백 시스템은 학생들의 학습 관리와 교양 강좌의 질 관리 측면에 시사점이 있음을 확인할 수 있었다. 향후 대규모 온라인 교양 강좌에서 학습자의 학습 충실도 제고와 학생들의 학업 유지율을 높이기 위해서 평가 피드백 시스템에 대한 관심과 개선이 필수적이며, 이는 서술형 평가가 요구되는 다른 교양 강좌에서도 활용이 확대될 수 있을 것이다.
Trans Abstract
The purpose of this study is to reveal the results of cases where artificial intelligence descriptive evaluation and feedback systems were applied in large-scale online liberal arts lectures at universities. For this purpose, we investigated and analyzed the results and satisfaction of descriptive evaluations conducted by students in the online liberal arts course ‘Understanding Sustainable Development’ taken by 2,600 students at University A. As a research method, frequency analysis and trajectory analysis were conducted to confirm changes in student participation rates, and factor analysis was used to cluster and compare students’ narrative evaluation response trends. As a result of the analysis, first, more than 60% of the students who took the ‘Understanding Sustainable Development’ course participated even after the 14th week, and more than 70% of the students participated more than 10 times. Second, the students’ evaluation scores showed a similar score range in the first week, but the range of scores increased as the 14th week progressed. In addition, there was a group whose score difference reversed around the 7th week, the midpoint of a semester’s lectures, so it was possible to identify both the period and the group in which the students’ learning needs to be carefully managed. Third, when looking at students’ satisfaction with AI quizzes, 86.6% responded positively regarding their active participation in AI-based quizzes, and 83.1% responded positively regarding the usefulness of AI-based quizzes. Meanwhile, the degree of motivation and expansion of AI-based quizzes into other liberal arts classes was relatively low at positive rates of 52.6% and 61.5%, respectively, but was much higher than the negative rates of 19.6% and 11.8%. Through these results, this study confirmed that the artificial intelligence-based narrative evaluation feedback system that provides feedback to individual students has implications in terms of student learning management and quality management of liberal arts courses. In order to improve learners’ learning fidelity and increase their academic retention rate in large-scale online liberal arts lectures in the future, interest in and improvement of the evaluation feedback system is essential, and its use can be expanded to other classes that require descriptive evaluation.
1. 서론
교양 교육에서 온라인 강의는 점차 중요성이 커지고 있다(양정원⋅김문주, 2021). 인터넷과 디지털 기술의 발전으로 온라인 교육 플랫폼이 등장하고, 대규모 강의가 가능한 시대가 되었기 때문이다. 수천 명에서 수십만 명까지의 학습자가 동시에 수강할 기회가 제공되면서 학습자들은 지리적, 시간적 제약을 더 이상 받지 않고 다양한 주제와 분야의 강의를 이용할 수 있게 되었다. 많은 대학이 온라인 교육을 통해 대규모 학생이 동시에 접속하는 대학 필수 강의를 운영하고 있다(김혜정, 2022; 임아영 외 2023). 특히 지속가능발전목표(Sustainable Development Goals, 이하 SDGs)와 같이 시대적으로 보편적인 교육을 요구하는 주제의 과목인 경우, 운영의 효율성 측면에서 온라인 대형 강의가 이뤄질 가능성이 크다.
대학의 교육과정은 교육의 방향과 질을 결정한다(전영옥 외, 2019). 교육과정은 핵심적인 교육내용과 함께, 평가 피드백이 포함된 효과적인 학습플랫폼이 결합할 경우 학생에게 양질의 교육이 이뤄질 수 있다(임경화 외, 2019). 특히, 온라인 학습플랫폼에서 학습자의 수준을 진단하고, 맞춤형 피드백을 제공하기 위한 서술형 평가는 중요한 기능을 수행한다(류은수, 2018). 서술형 평가는 교양교육에서 학습자들의 이해도를 평가하는 데에 효과적이다. 객관식 문제 등의 다지선다형 평가는 주어진 답변 사이에서 선택하는 것에 그치지만, 서술형 평가는 학습자가 스스로 내용을 이해하고 설명해야 하므로 학습자의 이해 수준과 개념 이해력을 평가할 수 있다. 서술형 평가를 통해 학습자의 상황을 진단하면 다양한 측면에서 피드백이 가능하다.
하지만, 대규모 온라인 교양 강좌에서는 서술형 평가가 용이 하지 않고 학습자에게 피드백과 평가를 어떻게 해야할 지 늘 어려움이 있다. 대규모 온라인 수업에서의 평가체제 및 평가에 대한 피드백 미비는 대규모 온라인 강의의 제약 조건으로 익히 알려져 있다(Baggaley, 2014; Fischer, 2014). 또한, 이는 강의 만족도와 학업 중단에도 영향을 미친다(임이랑, 2019). 실제로 대규모 온라인 강의인 MOOC (Massive Open Online Course)에 대한 선행연구에 따르면, 이수율이 약 3-6% 정도로 매우 낮다(Breslow et al., 2013). 특히, 강의 초반에 영상을 1-2회 시청하고 포기하는 sampler 학습자가 각각 80%에 육박하는 문제점이 제기되었다(Kizilcec et al., 2013). 따라서 대규모 온라인 강의에서 학습자의 학습 충실도 제고와 학생들의 학업을 지속하게 하는 데에는 평가 피드백 시스템 개선이 필수적이다.
이와 같은 필요성에 따라 본 연구에서는 서술형 문항의 빠른 평가와 피드백 정보를 생성하는 인공지능 시스템을 개발하여, 그것을 대학 교양 강좌에 적용하였다. ‘지속가능발전의 이해’ 기초교양 강좌에서 학습자에게 인공지능(AI) 기반 퀴즈 형태로 14주에 걸쳐 매주 서술형 문항(주당 3~5문항)을 제공하고, 3~4일 안에 개별 피드백 정보를 제공하였다. 즉, 개발된 시스템으로 2,600명이 동시에 수강하는 대규모 온라인 강의에서 14주간에 걸쳐 많은 수의 서술형 평가 문항을 제시하였고, 학습자들에게는 인공지능을 활용하여 매주 피드백이 제공되었다. 이 과정에서 학습자가 수행한 서술형 평가의 결과와 만족도를 조사하여, 대학 교양 교육에서 인공지능 서술형 자동 평가의 유용성을 확인하고자 하였다. 구체적인 연구 문제는 다음과 같다.
첫째, 기초교양 과목인 ‘지속가능발전의 이해’ 교과에서 실시한 인공지능 활용 서⋅논술형 평가에 나타난 학생의 참여율의 변화는 어떠한가?
둘째, 기초교양 과목인 ‘지속가능발전의 이해’ 교과에서 실시한 인공지능 활용 서⋅논술형 평가 점수는 어떤 종단 변화를 보이는가?
셋째, 기초교양 과목인 ‘지속가능발전의 이해’ 교과에서 실시한 인공지능 활용 서⋅논술형 평가에 관한 학생의 만족도는 어떠한가?
2. ‘지속가능발전의 이해’ 교양 강좌 운영
2.1. ‘지속가능발전의 이해’ 교양 강좌
이 연구에서 학습자에게 서술형 평가를 제공한 대학 교양 강좌는 A대학의 SDGs에 관한 대학 기초 교양 강좌이며 강좌명은 ‘지속가능발전의 이해’이다. A대학은 교양 교육과정을 3개의 교양교육 영역, 즉 기초교양, 균형교양, 학문기초로 구분하고 있다. 기초교양 영역은‘지속가능발전의 이해’수업처럼 모든 학생들이 필수적으로 이수해야 하는 사고와 표현, 디지털 리터러시 등의 교과목을 포함하고 있다.
‘지속가능발전의 이해’교양 강좌는 UN이 제시한 지속가능발전목표(SDGs)에 대한 내용을 기본으로 하되, 대학과 지역 차원에서 이해하고 실천할 수 있는 내용을 추가하여 재구성하였다. SDGs는 2015년 유엔 총회에서 만장일치로 합의된 전 세계적인 목표로, 지속가능 발전 의제로 선정된 17가지 의제를 2030년까지 달성할 것을 목표로 하고 있다(이명원, 2023). 특히, 대학 차원에서 지구-국가-지방의 이행과 공공인재 양성을 목표로 하는 ‘대학 ESDGs(Education for Sustainable Development Goals, ESDGs)’는 전 세계의 대학 교육과정에서 추진되고 있다(이창언, 2023). SDGs는 경제, 사회, 환경 문제를 포괄적으로 포함하고 있으며 장기적인 미래뿐만 아니라 현재의 삶, 그리고 세계 뿐만 아니라 지역과 나의 생활 측면에서 의미있기 때문에 대학생이 보편적으로 학습하고 실천해야 하는 내용이다(최진우, 지윤호, 2023). SDGs 관련 강좌는 우리나라에서도 경희대, 제주대 등 여러 대학에서 교양 강좌로 도입하고 있다(김윤지, 2023; 이명원, 2023).
A대학의 ‘지속가능발전의 이해’ 기초 교양 강좌는 2학점 이론 수업으로 원격수업으로 운영한다. 분반으로 운영이 되나 학기당 약 2,600명의 학생이 동시에 같은 내용을 학습하는 대규모 온라인 강의이다. 이 수업은 A대학 두 캠퍼스의 학생이 동시에 수강한다. 서술형 평가는 본 연구진의 조교 1인이 시스템을 활용하여 대응하였으며, 각 분반마다 배정된 튜터가 학생들에게 본 연구에서 생성한 개별 피드백을 온라인으로 전달하는 역할을 담당하였다. 또한 튜터는 각 분반의 학생들에게 수업 및 평가 참여를 독려하고 알리는 문자를 정기적으로 보내는 역할을 하였다. 온라인 강의는 15주에 걸쳐 지속가능발전과 관련된 다양한 주제를 다룬다(<표 1>). 서술형 문항은 강의의 주제에 관한 내용과 동일하다.
2.2. 평가 및 피드백
지속가능발전 수업을 운영하고 평가를 진행하기 위해서는 기본적으로 평가 문항 개발이 필요하다. 이를 위해 수강 학생에게 제시된 서술형 문항은 해당 교양 과목에 대한 이해가 있고 평가 문항 작성 경험이 많은 교사 4명이 수업 내용을 바탕으로 초기 문항을 작성하였다. 이후 ‘지속가능발전의 이해’ 수업의 각 차시를 담당한 강사에게 초기 문항과 답안을 검토받고 수정⋅보완하여 퀴즈의 문항과 답안을 최종 확정하였다.
해당 주차의 수업 내용에 따라 문항 개수가 조금은 차이가 있으나 문항은 대체적으로 차시별 8개 내외이다. 구체적으로는 단답형 또는 서답형 문항이 4개 내외이고, 아래 <표 2>에 예시로 제시된 문항과 같은 서술형 문항이 4개 정도이다. 서술형 문항은 학생이 자유롭게 서술할 수 있는 문항도 있으며, 답이 정해진 문항도 있다. 학생들은 자신의 의견을 강의 내용을 근거로 답변하는 형태이다.
대규모 학생을 대상으로 서술평 평가가 가능한 것은 비지도학습 방법의 자동평가 시스템 SAAI(scoring assistant using artificial intelligence, http://saaipeer.com)의 활용 덕분이다. SAAI는 학습자의 서술형 응답을 빠르게 채점하고, 피드백에 필요한 정보를 생성하는 시스템이다. 이 시스템은 사전에 채점 모델을 생성하지 않고, 학습자의 응답을 기초로 하여 평가하고 피드백 정보를 생성하는 비지도학습 방법으로 개발되었다.
SAAI는 학습자의 응답에서 정답이나 좋은 응답과 관련된 중요어를 찾아내고, 그것을 기반으로 응답을 채점하고 피드백에 필요한 정보를 생성한다. 이 기술은 중요한 단어는 빈도와 공출현이 높다는 원리에 근거하고, 그것을 바탕으로 점수를 생성할 수 있는 알고리즘을 설계하였다. 점수를 생성하는 알고리즘은 Zha(2002)가 개발한 상호보강원리를 활용하여 개발하였다.
개별 피드백은 SAAI 시스템을 통해 생성된 내용 점수를 활용하여 3~5개의 등급으로 구분한 뒤 짧은 문장으로 된 피드백을 제공한다. 피드백 내용은 문항의 내용과 어울리도록 조절한다. 예를 들어서 근거를 활용하여 자신의 주장을 제시하는 문항의 경우 가장 높은 등급에 대한 피드백은 ‘적절한 근거를 들어 훌륭한 응답을 작성하였습니다.’라는 피드백이며, 가장 늦은 등급은 ‘문제를 다시 확인하고 다음의 키워드를 적절히 활용하여 다시 생각해 보세요.’라는 피드백을 제공하였다. 피드백은 개별 피드백으로 자신의 정보를 입력하면 학생 자신의 응답과 해당 응답에 대한 피드백만 보이도록 만든 엑셀 파일을 통해 제공하였다. 해당 엑셀 파일에서 각 학생이 설정한 비밀번호, 학번, 이름이 모두 일치해야 자신의 피드백이 보이기 때문에 다른 학생의 응답과 피드백은 볼 수 없다.
3. 연구 방법
본 연구에서 연구 문제에 대한 답을 얻기 위해 다양한 연구 방법을 사용하였다. 먼저 대학 교양 강좌에서 실시한 14주간 서술형 평가에 나타난 학생의 참여율의 변화를 확인하기 위하여 서술형 평가에 참여하는 참여자의 빈도를 분석하였다. 해당 대학의 2개 캠퍼스에서 진행되어 캠퍼스별 차이를 확인하고자 구분하여 분석하였다. 14주간 서술형 평가 점수의 종단변화를 확인하고자 트라젝토리 분석을 실시하였다. 주차별 서술형 평가 점수를 생성하기 위해 몇 단계의 변환이 있었다. 주차별로 3~4개의 긴 응답이 필요한 서술형 평가를 제시하였다. 이를 위해, 각 문항별로 먼저 SAAI 점수와 문장 길이 점수를 생성한다. 각 주차별 점수의 평균을 만들기 위하여 각 문항별로 표준화된 점수로 변환하고, 표준화된 점수의 평균을 각 주차별 점수로 하였다. 이 과정을 통해 특정 문항에 대한 점수 편차를 완화할 수 있다. 이렇게 생성된 14주차의 각 내용 점수와 문장길이 점수는 종단 데이터로 정리하여 트라젝토리 분석에 활용하였다.
트라젝토리 분석은 학습자의 학습 경로와 진전을 추적하고 분석하는 기법으로, 시간 경과에 따라 시각화하여 학습 행동과 학습 과정을 이해하는 방법이다. 트라젝토리 분석을 통해 유사한 경로를 보이는 집단을 군집화하여 각 집단별로 학습경로를 이해할 수 있다. 트라젝토리분석은 집단중심추세모형(Group-Based Trajectory Model)의 crimCV 프로그램을 활용하여 분석하였다(Nielsen et al., 2014). 집단중심추세모형 분석은 궤적(트라젝토리)이 비슷한 집단을 군집으로 묶어주는 분석으로, 최적화된 군집의 수는 AIC(Akaike Information Criterion)과 BIC(Bayesian Information Criterion)등의 여러 지표를 활용하여 결정한다. 군집의 수가 많을 때 집단 내 궤적의 유사도는 높아지지만, 군집의 수가 많아져서 고려해야 하는 집단의 수는 늘어난다. 반대로 군집의 수가 적을 때 집단 내 다양성이 높아져서 유사도는 낮아질 것이다. 최적화된 군집의 수는 지표로 확인할 수 있지만, 연구자가 상황에 맞게 인위로 조정할 수 있다. 예를 들어서 이 연구에서와 같이 2,600명의 학생에서 5개 집단이 최적화된 군집의 수라고 하더라도 6~7개 등 더 많은 수의 집단으로 구분할 수 있다. 연구자가 고려해야 하는 집단의 수는 늘 수 있지만 집단 내에 포함된 데이터의 유사도는 높아지고 더 세분화된 피드백을 제공할 수 있는 장점도 있다. 이 연구는 하나의 예시로서 인위적으로 집단의 수를 지정하지 않고 최적화된 수치에 근거하여 집단의 수를 결정하였다.
다음으로 요인분석을 진행하였다. 14주차 동안 생성된 서술형 평가는 14개의 점수를 생성한다. 14개 점수를 활용하여 요인분석을 실시하면 어떤 점수들이 서로 군집화 되는지 확인할 수 있다. 예를 들어서 1주차와 2주차 응답 점수는 높은 상관관계를 보일 것이나 1주차와 14주차 응답의 점수는 상관관계가 거의 없을 것이다. 따라서 어떤 시점을 기준으로 점수의 상관관계에서 변화가 생기는지에 대해 요인분석을 통해 확인하였다. 요인 분석은 주성분 분석(Principal Component Analysis)을 활용하였으며, 고유값(eigenvalue)을 근거로 요인을 탐색하였다. 마지막으로 서술형 평가에 대한 학생의 만족도는 6개 문항으로 된 질문에 대한 리커트 척도의 비율을 분석하여 확인하였다. 서술형 평가 만족도 조사에 참여한 학생을 서술형 평가의 내용 점수로 구분된 트라젝토리 집단으로 구분하여 만족도 비율을 조사하였다. 집단간 응답 비율의 차이를 확인하는 통계적 검정은 카이제곱 검정을 활용하였다. 트라젝토리 분석은 R을 사용하였고, 그 외 분석은 SPSS 26.0 버전을 사용하였다.
4. 연구 결과 및 논의
4.1. 14주간 서술형 평가에 참여한 학생의 비율 변화
지속가능발전교육 교양 강좌가 진행된 캠퍼스는 두 곳으로, 각 캠퍼스별로 참여한 학생의 빈도와 전체 빈도를 구분하여 제시하였다. [그림 1]에서 확인할 수 있듯이 참여율은 14주를 향해 갈수록 낮아지고 있었지만 14주차가 되어도 60% 이상의 학생이 참여하고 있었다. 1주차에는 A 캠퍼스에서 89.1%, B 캠퍼스에서 85.0%, 전체 학생의 87.7%가 참여하였다. 14주차에는 A 캠퍼스에서 66.6%, B 캠퍼스에서 60.8%, 전체 학생의 64.7%가 참여하였다. 전체 14주 중 10회 이상 참여한 학생의 비율은 A 캠퍼스에서 74.7%, B 캠퍼스에서 64.2%, 전체 학생의 71.2%이었다.
4.2. 14주간 서술형 평가 점수의 종단 변화
14주간 서술형 평가 점수의 종단 변화를 분석하기 위해 트라젝토리 분석으로 군집화를 하였다. 14주간 생성된 서술형 평가 점수는 SAAI시스템에서 생성된 내용 점수와 문장의 글자수인 응답 길이 점수로 구분하여 분석하였다. 분석 자료는 서술형 평가에 참여하여 분석 가능한 점수가 7회 이상 있는 데이터 2,034개를 대상으로 하였다. 모형 적합도, 각 집단별 변화 양상, 각 주차별 점수의 표준 오차의 크기 등을 종합하여 내용 점수의 경우 총 5개 집단으로 구분하였다. [그림 2]에서 보여지는 것처럼 5개 집단 모두 1주차에는 비슷한 점수대를 보이다가 14주가 되면서 점수의 폭이 커진다. 집단 1은 14주차로 갈수록 점점 내용 점수가 높아지는 집단이다. 이 집단의 학생들은 상당히 성실히 서술형 평가를 수행하였으며, 특히 14주차가 되어도 교양 강의 내용에 충실하게 응답을 작성하는 학생들이다. 집단 1은 79명으로, 전체 3.9%이다.
집단 2는 2주차부터 중간 수준의 점수를 유지하는 집단이다. 최선을 다하진 않으나 교양 강의의 내용을 충분히 이해하면서 서술형 평가에 적절한 응답을 제시하는 집단으로 판단된다. 집단 2는 306명으로, 전체 15.0%이다.
집단 3은 7주차 전까지는 계속 하락하다가 7주차 이후부터 약간 점수가 상승하는 집단이다. 아마도 교양 강의 초기에는 강의와 평가에 큰 흥미를 못 느끼다가 후반부에서 자신의 점수를 만해하기 위하여 노력을 더 기울이는 집단으로 판단된다. 집단 3은 478명, 전체 23.5%이다.
반면, 집단 4는 초기에는 열심히 서술형 평가에 임하다가 14주에 걸쳐 지속적으로 하락하는 집단이다. 집단 3과는 7~8주차에서 역전되는 집단이다. 집단 4는 481명, 전체 23.6%이다. 마지막으로 집단 5는 14주차 동안 서술형 평가에 참여는 하나 적절한 응답을 제공하지 않는집단이다. 서술형 평가가 참여만 하더라도 점수를 제공하기 때문에 서술형 평가의 참여 점수만을 기대하고, 문항에 대한 적절한 답변을 작성하는 데에는 관심이 없는 학생이다. 집단 5는 690명으로, 33.9%이다.
학생들이 교양 강의 내용을 바탕으로 문항에서 요구하는 답을 작성하면 내용 점수는 높아진다. 하지만 교양 강의 내용을 잘 이해하지 못했거나, 문항에 대한 답을 잘 알지 못하였더라도 서술형 평가에 최선을 다하기 위해 자신의 생각을 다양하게 작성할 때에는 내용 점수는 낮지만 응답의 길이는 있게 된다. 따라서 응답 길이 점수를 활용하여 트라젝토리 분석을 실시해 보았고, 이 결과는 [그림 3]과 같다.
분석 결과 응답 길이를 활용하여 집단을 구성하여도 내용 점수 트라젝토리 집단과 유사한 5개 집단으로 구분되었다. 집단 1은 14주간에 걸쳐 점점 많이 작성하는 38명, 1.9%이며, 집단 2는 적절한 길이의 응답으로 꾸준히 작성하는 168명, 8.3%이다. 집단 3은 점점 응답 길이가 조금씩 짧아지는 331명, 16.3%이다. 집단 4는 응답의 길이가 조금씩 길어지는 348명, 17.1%이다. 집단 5는 항상 응답 길이가 짧은 1149명, 56.5%이다.
전체 강의 14주간 생성한 서술형 평가 문항의 14개 점수를 활용하여 요인 분석을 실시하였다(<표 3> 참조). 이 분석을 실시하는 이유는 각 주차별 생성된 점수의 상관관계를 바탕으로 어떤 시점에서 점수의 양상이 달라지는지를 확인하기 위함이다. 그 결과 내용 점수의 경우 7주를 중심으로 점수의 양상이 달라지는 것을 확인할 수 있었으며, 응답 길이 점수의 경우는 4주~7주를 중심으로 점수의 양상이 달라지는 것을 확인할 수 있었다.
4.3. 서술형 평가에 대한 학생 만족도 결과
서술형 평가를 마친 이후 서술형 평가에 대한 학생 만족도 조사를 5단계 리커트 척도를 활용하여 조사하였다. 문항은 총 6개 문항으로 ‘AI 기반 퀴즈에 적극적으로 참여하였다’(적극적 참여도), ‘AI 기반 퀴즈’는 ‘지속가능발전의 이해’의 학습을 정리하는데 유용했다‘(유용도) 등의 문항이다.
그리고 내용 점수를 바탕으로 구분한 5개 트라젝토리 집단별로 응답 비율을 제시하여, 트라젝토리 분석으로 구분된 집단별로 만족도가 다른지를 확인하였다. 분석 결과 <표 4>와 같이 학생 만족도 결과를 보였다. 먼저 서술형 평가에 대한 참여의 적극성에 대해서는 80% 이상의 학생이 적극적으로 참여하였다고 응답하였으며, 14주에 걸쳐 점점 내용 점수가 높아진 집단 1에서 거의 95% 정도가 ‘그렇다’ 이상의 응답을 하였다. 서술형 평가가 학습을 정리하는데 유용했는지에 관한 질문에도 80% 이상이 유용하다고 응답하였으며, 집단 1에서 가장 높은 95% 이상의 응답이 유용하였다고 응답하였다. 인공지능을 활용한 서술형 평가가 기존에 경험하지 않았던 새로운 경험이었는지에 관한 질문에서도 80% 이상이 동의하였으며, 집단별 양상은 비슷하였다.
서술형 평가를 다른 교양 과목에 도입에 관한 질문에는 약 50%가 찬성을 20% 정도가 반대하는 입장이었다. 서술형 평가 응답에 시간적 부담에 관해서는 40%가 부담되었다고 하였으며, 약 30%가 부담이 되지 않았다고 응답하였다. 마지막으로 AI 기반 퀴즈 피드백이 수업참여에 동기부여가 되었는지에 대한 질문에 60%의 학생이 그렇다고 응답하였다.
5. 결론
본 연구는 대학 교양교육에서 온라인 대규모 강의의 중요성과 활용도가 높아지고 있는 상황에서, 온라인 대규모 교양 강좌의 난점 중 하나인 학생 평가와 피드백을 위해 인공지능 서술형 자동평가와 피드백 시스템을 적용한 사례이다. A대학 약 2,600명 학생이 수강하는 온라인 기초교양인 ‘지속가능발전의 이해’ 강좌에 학생들의 참여도를 높이고, 강좌 내용에 대한 학습을 지원하기 위하여 개발한 인공지능 시스템을 활용하여 서술형 평가를 실시하고 개별 피드백을 제공하였다. 학습자가 수행한 서술형 평가의 결과와 만족도를 조사하여, 대학 교양 교육에서 인공지능 서술형 자동 평가의 유용성을 확인하고자 하였다.
그 결과 첫째, ‘지속가능발전의 이해’를 수강한 학생들은 14주차가 되어도 60%의 이상이 참여하였고, 10회 이상 참여한 학생이 70%가 넘었다. 둘째, 학생들의 평가 점수는 1주차에는 비슷한 점수대를 보이다가 14주가 되면서 점수의 폭이 커졌다. 주목해서 봐야할 것은 집단 3(초기엔 낮다가 중간 이후부터 점수가 상승하는 집단)과 집단 4(학기 초에는 서술평 평가에 적극적이었지만, 14주에 걸처 조금씩 점수가 하락한 집단)인데, 집단 3과 4는 수업 7~8주차에 점수가 역전되는 시기가 왔다. 이 시기를 기점으로 집단 3 학생들이 집단 4 학생들보다 평가 점수가 높아졌다.
셋째, 학생들의 AI 기반 퀴즈에 대한 만족도를 살펴봤을 때 AI 기반 퀴즈에 대한 자신의 적극적 참여도는 86.6%, AI 기반 퀴즈의 유용도는 83.1%가 긍정적(‘그렇다’와 ‘매우 그렇다’)으로 응답하였다. 한편, AI 기반 퀴즈의 다른 교양에 확대 도입과 동기부여 정도는 긍정적 비율이 각각 52.6%, 61.5%로 상대적으로 낮았지만, 부정적 비율 19.6%, 11.8%에 비해서는 월등히 높았다.
학생들에게 인공지능(AI) 기반 퀴즈와 자동형 서술평 평가 피드백 시스템은 낯설 수 있다. 학생들의 답에서도 83.9%가 AI 기반 퀴즈가 새로웠다고 응답하였다. 그럼에도 불구하고, 학생들은 AI 기반 퀴즈의 유용성을 높이 평가하였으며, 학생들도 열심히 참여하여 그 결과로 14주차가 되어도 60% 이상의 학생들이 퀴즈에 참여하였다. 직접적 비교에는 제한점이 있지만, MOOC(Massive Open Online Course)의 이수율이 약 3-6% 정도로 매우 낮고, 초기 포기하는 학습자가 80%나 된다는 결과(Breslow et al., 2013; Kizilcec, Piech, & Schneider, 2013)에 비하면 A대학의 대규모 교양 강좌에 대한 학생들의 참여도는 상당히 높다고 할 수 있다. 이러한 결과에는 학생들이 서술형 평가에 참여하도록 시스템을 설계하고, 학생 개별적으로 2~3일 내에 피드백을 주는 인공지능 활용 서술평 평가 피드백 시스템을 활용한 것이 긍정적 영향을 미쳤다고 판단되며, 본 연구의 유용도가 확인된다고 할 수 있다.
이처럼 14주간 진행된 서술형 평가에서 수집한 결과를 활용하여 학생들의 학습 상황을 분석한 결과 다양한 시사점을 얻을 수 있다. 가장 먼저 학생의 학습 관리적 측면이다. 14주간 종단적으로 관찰한 결과 몇 가지 특징적인 학생들의 학습 궤적을 확인할 수 있었다. 그 중에서 약 4%의 학생들은 14주 동안 지속적으로 서술형 평가에 응답하면서 강좌 내용을 바탕으로 성실하게 서술형 응답을 작성하였다. 그리고 이 학생들은 다른 학생들에 비하여 서술형 평가에 대해 상당히 높은 만족을 보였다. 이와 같이 지속적으로 학습에 적극 참여하는 학생들은 다양한 심리적 특성이 있을 것으로 판단된다. 예를 들어서 동기 및 자기효능감이 높거나, 학습에 대한 책임감이 강할 수 있다. 목표 지향성, 자기개발 욕구 등이 높아 학습에 대한 긍정적인 태도를 가진 학생으로 판단된다. 한편, 전반부에는 소극적이었다가 학기 후반에 적극적으로 학습에 참여하는 학생들도 다양한 특성을 예상할 수 있다. 예를 들어서 학기 초에는 주변 환경이나 수업 등을 먼저 확인하고 향후 자신의 활동을 근거로 후반부에 더 노력을 투입하는 학생들이다. 자기 동기는 부족할 수 있으나 학습에 대한 책임감은 있다. 반면에, 14주 동안 학습 동기가 낮아지고, 지속적 학습과 학습 목표 달성을 못한 학생들도 있을 것이다.
교양 강의에서 학생의 학습을 돕기 위해 제공한 서술형 평가를 통해 학생의 학습 상태뿐만 아니라 학생의 개별적인 특성까지도 확인한다면 상당한 이점이 있다. 대학은 학생의 성향에 맞추어 개별 상담 및 지원을 계획할 수 있을 것이며, 특정 시점에 개인화된 피드백을 통해 학습을 지원할 수 있다. 대학이 학생의 학습 성향을 조사하는데 설문의 형태로 조사하고 있으나 이와 같이 실제 학습 과정을 종단으로 관찰하여 학습 성향을 조사하면 더 정확한 데이터가 수집될 수 있다. 예를 들어 중도 탈락 학생을 예측하거나, 성실한 학생을 분류하여 장학금을 제공하는데 중요한 근거 자료가 될 수 있을 것이다.
두 번째는 대학 교양 강좌의 질 관리 측면이다. 동영상 기반 교양 강의에서 학생이 학습한 내용을 바탕으로 정리할 수 있는 활동을 제공하면 학생의 학습 참여와 학습에 대한 외적 동기를 높이는 데 효과적일 수 있다. 하지만 학생에게 과제를 제공하고 그에 대한 피드백을 제공하지 않을 경우 학생의 참여는 낮아질 수 있다. 더욱이 교양 강의에서 학생들이 실제 학습을 하고 있는지를 확인할 수 없다. 대규모 평가를 통해 학생들의 외적 동기를 높일 수 있으나 2,600명의 대규모 학생을 공정한 평가를 실시하기는 어렵다. 이와 같은 상황에서 학습 내용을 정리하는 서술형 평가와 그것에 대한 분석은 강좌의 질 관리에 효과적이다. 인공지능을 활용하여 학생의 응답을 분석하면, 학생의 전반적인 학습 상황을 빠르게 확인할 수 있다. 얼마나 많은 학생들이 학습 내용을 바탕으로 응답을 하는지를 확인할 수 있으며, 어떤 강의에 학생들이 어려움을 가지는지도 확인할 수 있다. 이렇게 생성된 데이터를 기반으로 교양 강좌를 평가하고, 지속적으로 개선할 수 있을 것이다. 향후 대규모 온라인 교양 강좌에서 학습자의 학습 충실도 제고와 학생들의 학업 유지율을 높이기 위해서 평가 피드백 시스템에 대한 관심과 개선이 필수적이며, 이는 서술형 평가가 요구되는 다른 수업에서도 활용이 확대될 수 있을 것이다.