Korean J General Edu Search

CLOSE


Korean J General Edu > Volume 19(3); 2025 > Article
대학생 기초학력 진단을 위한 CAT 기반 진단체계 개발

Abstract

본 연구의 목적은 대학생의 기초학력 진단을 위한 CAT 기반 진단체계를 개발하고, 대학 교육현장에서의 적용 가능성을 탐색하는 것이다. 이를 위해 먼저 J대학의 기초교양 교과목인 글쓰기, 수학, 영어, 소프트웨어의 내용체계를 고려하여 진단문항을 개발하였다. 개발된 문항의 심리측정적 속성을 확인하기 위해 고전검사이론과 문항반응이론을 기반으로 문항 분석을 실시하여 문항은행을 구축하였다. CAT 시스템은 기존 CBT 시스템에 API를 연동하여 구축하였으며, CAT 시스템의 정확성 및 타당성을 검증하기 위해 CAT 시스템과 IRT 관련 패키지인 irtQ를 통해 각각 산출한 능력 추정치와 추정치의 표준오차를 비교하였다. 연구 결과, CAT 기반의 진단체계는 기존의 평가 방식보다 더 효율적이고 정밀한 기초학력 진단이 가능한 것으로 나타났다. 이를 통해 학생 개개인의 학습지원을 위한 맞춤형 교육을 제공할 수 있는 가능성이 있음을 시사하였다.

Abstract

The purpose of this study is to develop a Computerized Adaptive Testing (CAT) based diagnostic system for assessing the basic academic skills of undergraduate students and to explore its applicability in the university educational setting. To achieve these objectives, diagnostic items were developed considering the content structure of basic liberal arts courses such as Writing, Mathematics, English, and Software at J University. To verify the psychometric properties of the developed items, item analysis was conducted based on Classical Test Theory (CTT) and Item Response Theory (IRT), and an item bank was established. The CAT system was constructed by integrating an API into the existing Computer-Based Testing (CBT) system. To verify the accuracy and validity of the CAT system, ability estimates and the standard errors of these estimates produced by the CAT system and the IRT-related package, irtQ, were compared. The study found that the CAT-based diagnostic system enables more efficient and precise assessment of basic academic skills compared to traditional evaluation methods. This suggests the potential for providing customized education to support the individualized learning needs of students.

1. 서론

최근 대학의 교수자들 사이에서는 신입생들의 기초학력 저하 문제가 해가 거듭될수록 심각해지고 있다는 인식이 널리 확산되고 있다. 실제로 한국교육과정평가원에서는 학생들의 학업 성취 수준 현황과 변화 추이를 체계적으로 분석하고자 매년 전체 학생의 약 3% 정도를 표집하여 국가수준의 학업성취도 평가를 실시하고 있는데, 이 평가의 조사 대상인 일반계 고등학교 2학년 결과를 살펴보면 2010년부터 2023년까지 국어, 영어, 수학에서 기초학력 미달 수준인 ‘1수준’ 학생의 비율이 대체로 꾸준한 증가 추세를 보이고 있는 것으로 나타났다(교육부, 2024. 6. 18.). 더군다나 2021년부터는 문⋅이과 통합 교육 정책에 따라 문⋅이과 대학 전공 계열의 교차 지원이 가능해져 어느 정도 기초수학을 필요로 하는 이공계 전공에 수학 학습이 부족했던 학생들도 진학할 수 있게 되었다는 점을 고려하면 앞으로 대학 신입생의 기초학력 문제는 보다 심각해질 수 있다(김아름, 오미자, 2023; 성신형, 한윤영, 2023). 더욱 중요한 것은 초⋅중⋅고등학교와 같이 특정 학교급에서 발생한 기초학력 저하는 학교급이 올라갈수록 누적되는 결손 효과를 불러일으켜 더 큰 문제를 야기할 수 있다는 것이다(이종현, 조규락, 2021). 이들이 대학 졸업 후 직업세계로 나아간다는 점을 고려해보면 기초학력 저하가 사회 전체의 교육 수준 저하로도 이어질 수 있어 초기의 대응이 매우 중요하다.
일반적으로 기초학력은 어떠한 교육을 받는데 기초적으로 필요한 학습능력을 의미하며, 특정한 학습 상황에 요구되는 지식이나 기능과는 달리 보편적인 학습 상황에서 필요한 일반적인 학습능력을 말한다(서울대학교 교육연구소, 2011). 좁은 의미에서는 읽기⋅쓰기⋅셈하기(3R’s)를 중심으로 하는 기초 교과(국영수)지식 기반의 내용을 말하지만, 넓은 의미에서는 학업 수행을 가능케 하는 인지적⋅정의적⋅사회적 역량 등을 포함한 통합적 역량으로, 논리적 사고, 비판적 사고, 정보 활용능력, 자기주도학습 전략, 팀워크 및 소통 역량 등을 모두 포함할 수 있다(교육부, 2019; 성열관 외, 2020; 이순아 외, 2021). 하지만 기초학력의 관리 목적으로 진단을 실시할 때는 검사가 용이한 교과중심, 즉 좁은 의미의 접근을 택하는 경향이 있다. 한편 고등교육에서의 기초학력 해석에 대해서는 상대적으로 논의가 부족한데, 교양교육에서 그 단서를 찾아볼 수 있다. 한국교양기초교육원(2022)이 제시한 대학 교양기초교육의 표준모델에서는 대학 교양교육을 이루는 세 가지 영역 중 하나로 기초문해교육을 설정하고 있으며 ‘대학 교육과 평생교육을 위해 필요한 사고 능력과 문해 능력 등 기초학업 능력을 함양하는 교육’으로 정의하여 기초교육의 중요성을 강조하고 있다. 기초문해교육의 세부 내용으로는 사고교육(논리적 사고, 비판적 사고, 창의적 사고), 언어교육(국어, 영어 등 외국어), 정보문해교육(컴퓨팅적 사고, 데이터 문해, 디지털 문해), 수리 및 기초과학 교육을 제시하고 있다. 즉, 3R’s의 기능을 포함하여 정보문해교육과 사고교육까지 더한 셈이다.
기초학력이 부족한 상태로 학업에 임할 경우, 다음 학습단계에서 학업 저성취를 유발하고 이는 다시 학업 스트레스와 자기 효능감 감소, 학습동기 저하에 영향을 미치며 학업중단으로까지 이어질 수 있기 때문에 가능한 빠른 시간 내에 문제를 해결할 필요가 있다(장애경, 양지웅, 2013; Pekrun et al., 2011; Usher & Pajares, 2006). 이를 위해 초⋅중등교육에서는 2021년 9월 제정된 「기초학력 보장법」에 따라 체계적인 기초학력 정책을 추진하고 있으며, 현재는 각 17개의 시⋅도 교육청마다 기초학력 진단-보정 시스템을 구축하고 초등학교 2학년부터 고등학교 2학년까지 3R’s 검사를 포함한 기초학력 진단검사 실시 및 연계된 보정을 통해 학습 개선을 도모하고 있다. 그러나 대학의 경우 기초학력 보장법의 적용을 받지 않아, 대학이 자체적으로 비교과 프로그램, 기초교양 강화, 교내외 멘토링 등 다양한 방법으로 개선 노력을 기울이고 있다. 하지만, 실제로 학생들의 기초학력을 관리하고 증진시키기 위해서는 무엇보다도 체계적이고 신뢰도 높은 진단도구의 개발 및 활용이 요구된다. 국내에서도 일부 대학들은 자체적으로 기초학력 진단검사를 개발하여 운영하고 있다. 경북대의 경우에는 신입생을 대상으로 수학, 물리, 화학, 생물, 글쓰기 다섯 과목 중 학과(부)가 지정한 2개 이내의 교과목에 대해 진단을 실시한 후, 점수가 저조한 학생들은 기초 교양과목 및 온라인 기초강좌를 이수하며, 성적이 우수한 학생은 기초 교과 이수를 면제해주는 제도를 운영하고 있다. 이외에도 경상국립대, 인하대 등 자체적인 진단검사 시스템을 통해 기초학력 진단을 운영하는 대학들의 사례들을 종합해보면 대체로 3R’s로 불리는 공통 학습능력을 측정하기보다는 이들 기능을 대표하는 각 교과(영역)의 학력 수준을 평가하기 위해 컴퓨터기반 검사(Computer Based Testing, 이하 CBT)를 활용하여 국어, 영어, 수학, 과학과 같은 과목의 학력 수준을 측정하는 데 중점을 두고 있었으며, 수준별로 기초교양 과목을 배정하기 위한 자료로 사용하고 있었다.
주목할만한 점은 많은 대학들이 전통적 방식의 지필검사에서 벗어나 컴퓨터를 이용한 CBT 검사를 활용하고 있다는 점이다. CBT는 전통적 지필검사를 컴퓨터로 구현한 평가로 시간과 경비 절약은 물론, 검사의 시기와 장소에 대한 제약도 적으며, 멀티미디어적인 요소를 포함한 다양한 형태의 문항을 제작할 수 있다는 장점이 있다. 하지만, CBT는 전통적 지필검사를 단순히 컴퓨터로 구현한 평가이므로 피험자 개별 능력에 적합한 맞춤형 평가는 이루어지지 못한다는 한계를 가지고 있다. 즉, 모든 피험자가 동일한 문항으로 구성된 검사에 응시하는 것이다. 이와 같은 집단 검사는 중간 수준의 학업적 능력을 지닌 학생들에 비해 능력 수준이 높거나 낮은 학생들에게는 측정의 오차가 높아져 능력 측정의 정확성이 떨어지는 한계를 지닌다. 반면, 최근에는 학생 개별 맞춤형 평가가 주목 받으면서 컴퓨터기반 적응형 검사(Computerized Adaptive Testing, 이하 CAT)에 대한 관심이 높아지고 있는데, CAT는 CBT의 장점을 극대화하여 피험자 능력 수준에 적합한 난이도로 검사를 자동으로 구성하고 검사정보(test information)를 높여 피험자 능력 측정의 정확성을 높일 수 있다(Seo, 2017). 즉, 컴퓨터를 기반으로 한 평가라는 측면에서는 CBT의 범주에 속하지만 피험자의 응답을 실시간으로 분석한 후 능력 수준에 맞는 문항을 제시함으로써 측정의 정확성 및 효율성을 높일 수 있다는 차이점을 지닌다(Wainer, 2000). 기존 CBT 방식에서는 모든 피험자가 수십 개의 동일한 문항으로 구성된 검사에 응시해야 했으므로, 많은 학습자들이 참여에 부담을 느끼지만, CAT에서는 비교적 적은 수의 문항으로도 피험자의 능력을 정확하게 추정할 수 있어 피험자가 풀어야 하는 문제의 수를 줄여주어 피험자의 참여율을 높이는 데에도 효과적이다(Wise, 2014).
학생 개개인의 수준에 적절한 맞춤형 강의 배정 및 학습을 위해 인공지능(Artificial Intelligence, 이하 AI)을 활용한 맞춤형 학습을 도입하려는 움직임도 나타나고 있다. 현재 AI 기반의 맞춤형 학습에서는 딥러닝 기반 지식 추적(Deep Knowledge Tracing, 이하 DKT) 알고리즘이 널리 활용되고 있으나, 대부분의 딥러닝(Deep Learning) 모델이 공통적으로 가지는 산출된 결과에 대한 해석 및 설명 가능성의 부족과 피험자의 능력 점수를 직접적으로 제공할 수 없다는 한계가 있다(Yeung, 2019). 이를 보완하기 위해 DKT에 문항반응이론(Item Response Theory, 이하 IRT)을 결합한 새로운 알고리즘을 개발하려는 시도들이 이루어지고 있지만, IRT에 비해 수행 수준의 유의미한 향상이 없거나 개선된 부분(Tsutsumi et al., 2021)이 있더라도 현장에서의 사용 편의성이 높아 보이지 않는다. 최근에는 생성형 AI(Generative AI)를 활용하여 개인화된 평가를 시도하려는 연구들도 진행되고 있지만, 여전히 더 많은 연구가 필요한 단계이며, 평가의 핵심 가치인 타당도(Validity), 신뢰도(Reliability), 공정성(fairness)을 저해할 가능성이 있다(Arslan et al., 2024; Jurenka et al., 2024). 특히, 평가를 통해 산출된 점수에 대한 책임을 져야 하는 기관에서는 평가 점수의 이론적 및 실증적 타당성에 대한 명확한 설명이 요구되므로, 아직까지 고부담 시험(high-stake exam) 환경에서 AI 기술을 적용한 평가의 도입은 제한적이다. 본 연구에서는 평가를 통해 산출된 학생의 능력 점수를 바탕으로 수준별 강의 추천, 학력 수준 향상 평가 및 종단적 능력 추적을 수행함과 동시에 학생 개개인의 능력에 맞는 개별 맞춤형 검사를 제공하기 위해 기초학력 수준 진단 도구로 CAT를 도입하였다. CAT는 많은 이론적 및 실증적 연구를 통해 학생의 능력 점수 산출에 대한 타당성과 이론적 근거를 갖추고 있다(Weiss & Sahin, 2024). 이러한 장점 때문에 국외에서는 TOEFL이나 GRE(Graduate Record Examination), USMILE(United States Medical Licensing Examination) 등 다수의 검사에서 CAT를 도입하여 활용하고 있지만, 국내에서의 CAT의 활용은 여전히 제한적이며, 대학에서 기초학력 진단검사를 개발하여 도입한 사례는 거의 찾아보기 어렵다.
본 연구에서는 이러한 연구 배경 및 필요성을 바탕으로 CAT를 활용한 대학생용 기초학력 진단도구를 개발하여 진단체계로서의 새로운 가능성을 제안하고자 한다. 연구 목적을 달성하기 위해 J대학을 사례로 J대학의 기초교양 교과목 중 글쓰기, 수학, 영어, 소프트웨어 4개 교과목을 대상으로 진단문항을 개발하고 그 결과를 분석한 뒤, CAT 구성요소를 결정하고 기초학력 진단체계를 실질적으로 구축하였다. 이 연구를 통해 대학생들의 기초학력 수준을 보다 효과적이고 효율적으로 파악하고, 개인화된 학습지원 방안을 마련하여 기초학력 증진 효과를 극대화하는 데 기여할 수 있을 것으로 기대한다.

2. 인공지능 기반 적응형 평가 시스템

2.1. 컴퓨터기반 적응형 검사

컴퓨터기반 적응형 검사(CAT)는 학생이 문항에 응답할 때마다 학생의 능력을 실시간으로 추정하고, 이를 기반으로 학생 능력에 적합한 문항을 제공하는 검사 방식이다. CAT는 학생의 능력에 적합한 문항만을 제공하여 기존 지필검사나 CBT보다 문항 수를 줄여 측정의 효율성은 높이면서, 측정의 정확성은 동일하거나 더 높다(Weiss & Kingsbury, 1984). CAT의 장점인 측정의 효율성과 정확성 때문에 고부담 시험인 자격시험에서도 CAT가 많이 활용되고 있다. CAT로 운영되는 자격시험으로는 미국 National Council of State Boards of Nursing의 간호사 자격 시험인 National Council Licensure Examination(National Council of State Boards of Nursing, n.d.)가 있으며, 미국 경영대학원 입학시험인 Graduate Management Admission Test(Graduate Management Admission Council, n.d.)가 있다. 이외에도 미국의 초, 중, 고등학생의 학업성취도를 측정하기 위한 K-12 등에도 CAT가 적용되어 운영되고 있다.
CAT는 평가 영역에서 AI 기술 적용의 초기 시행이라고 볼 수 있다(Weiss & Sahin, 2024). CAT는 정교한 알고리즘으로 구성된 검사 방식으로 아래 5가지 요소로 구성되어 있다(Seo, 2017; Thompson & Weiss, 2011).
  • 1. 문항반응이론 기반 문항은행(calibrated item bank)

  • 2. 시작규칙(starting rule)

  • 3. 문항 선택 규칙(item selection rule)

  • 4. 능력 추정(scoring method)

  • 5. 종료규칙(termination criterion)

CAT의 첫 번째 구성요소는 IRT 기반의 문항은행이다. 문항은행은 평가하고자 하는 능력을 측정하는 문항들의 심리측정적 속성(변별도, 난이도, 추측도), 문항이 측정하는 영역에 대한 정보, 문항 생애주기에 관한 기록, 문항 제작자 정보 등을 DB 형태로 구성한 것이다. IRT 기반의 문항은행은 문항의 심리측정적 속성(psychometric property)을 IRT를 통해 추정하여 DB에 저장한 것을 의미한다. CAT는 IRT를 기반으로 작동하기에 IRT 기반 문항은행 구축은 CAT 시행을 위해 제일 먼저 선행되어야 하는 작업 단계이다. 두 번째 구성요소인 시작 규칙(starting rule)은 학생에 대한 사전정보가 없는 시험 초기 상태에서 학생에게 적합한 문항을 어떤 방식으로 제공할지에 대해 설정하는 요소이다. 세 번째 요소인 문항 선택 규칙은 학생 능력에 적합한 문항을 어떤 방식으로 선별하고 제공할지에 대한 것이며, 능력 추정은 학생의 능력을 어떤 방법으로 추정할 것인지에 대한 구성요소이다. 문항 선별 규칙으로 가장 널리 활용되는 방법은 피검사자의 능력을 측정하는 데에 가장 많은 정보(information)를 주는 문항을 선별하는 최대피셔정보(maximum fisher information, 이하 MFI)가 있으며, 능력 추정 방법으로는 최대우도추정법(maximum likelihood estimation, 이하 MLE), 평균추정법(expected a posterior), 최빈치추정법(maximum a posterior)이 있다. 모든 문항을 다 풀면 시험이 종료되는 지필평가 및 CBT와 달리 CAT는 피검사자에게 제시될 문항과 문항의 수가 정해져 있지 않아 시험 종료를 위한 규칙 설정이 필요하다. 이처럼 종료규칙은 CAT에서 시험을 어떤 기준에 따라 종료할 것인지를 설정하는 구성요소이다. 일반적으로 활용되는 종료규칙에는 피검사자 능력 추정치의 오차가 사전에 지정한 값에 도달했을 때 종료하는 방식과 응시 문항 수가 사전에 정한 기준에 도달했을 때 종료하는 방식이 있다. CAT는 설정한 종료규칙이 만족될 때까지 구성요소 3, 4, 5번을 반복한다. CAT의 플로우차트는 [그림 1]과 같다.
[그림 1]
CAT 플로우차트
kjge-2025-19-3-177-gf1.jpg

2.2. 컴퓨터기반 적응형 검사 기반 진단체계

대학교 신입생들의 기초학력 수준은 개개인에 따라 상이하므로 이를 고려하지 않은 일률적 강의 배정은 오히려 학습 효과를 저하시킬 수 있다. 따라서 신입생의 기초학력을 객관적으로 진단하고, 각 학생의 수준에 적합한 맞춤형 강의를 추천하는 체계는 학습 효율성을 제고하고 학습동기를 높이며, 대학 교육의 질을 향상시키는 데 중요한 역할을 수행한다. 본 연구에서는 이러한 필요성을 충족시키기 위해 CAT 기반의 기초 학력 진단체계를 설계하였다.
CAT를 활용한 진단체계의 첫 번째 단계는 대학 신입생들의 기초학력 수준을 정확히 평가하는 것이다. CAT는 실시간으로 학생의 능력 수준을 추정하고, 학생 능력에 따라 적절한 난이도의 문항을 제시함으로써 짧은 시간 내에 정밀한 기초학력 수준 평가를 가능하게 한다. 이를 통해 학생 개개인의 기초학력 수준을 객관적이고 체계적으로 파악할 수 있다. 진단 결과는 각 학생에게 가장 적합한 강의를 배정하는 데 활용된다. 기초학력 수준은 진단 결과를 바탕으로 상, 중, 하의 세 가지 수준으로 구분하며, 학생은 각 수준별로 적합한 과목별 강의를 추천받게 된다.
한 학기 동안 학생들이 맞춤형으로 추천받은 강의를 이수한 후, 학기 말에 동일하게 CAT를 통해 기초학력을 재진단한다. 재진단은 학기 초 진단과 동일한 문항은행을 이용하여 실시함으로써 학생들의 능력 점수를 동일한 척도상에서 직접 비교할 수 있다. 이를 통해 측정학적 조정 없이 학생들의 학습 성취도와 성장 정도를 객관적으로 비교할 수 있다. 학기 말 재진단의 결과는 다음 학기의 학습 계획 수립과 강의 재추천의 기초자료로 활용된다. 재진단 결과를 바탕으로 학생 개개인의 학습 성장을 평가하고, 그에 적합한 강의를 다음 학기에 재추천함으로써 교육의 지속성을 확보할 수 있다. CAT기반 진단체계를 도식으로 나타내면 [그림 2]와 같다.
[그림 2]
CAT기반 진단체계도
kjge-2025-19-3-177-gf2.jpg

3. 적응적 학습환경 제공을 위한 CAT 도입 및 적용

3.1. 기초교양 내용체계

본 연구에서는 기초교양 수준 진단을 위한 과목으로 글쓰기, 수학, 영어, 소프트웨어(software, SW)를 선정하였다. 이는 초⋅중등교육 및 대학교육 현장에서 지식 습득을 위한 기초학력 진단 시 주로 국어, 수학, 영어 영역을 평가에 활용한다는 점을 반영한 것이다. 초⋅중등교육에서는 일반적으로 3R’s 검사(읽기, 쓰기, 수리력) 및 국어 과목을 통해 기초학력을 진단하고 있다. 이는 문해력과 관련된 과목들이며, 교육부(2019)의 기초학력 정의를 바탕으로 한다. 특히, 대학교육에서는 글쓰기와 발표 등 표현 능력이 강조되고 있으며, 의사소통 영역의 기초교양 과목 역시 글쓰기, 토론, 발표 등 표현 중심의 능력을 중요하게 다룬다. 따라서 본 연구에서는 문해력 관련된 과목 중 글쓰기 영역을 진단 과목으로 선정하였으며, 글쓰기의 진단 영역은 ‘표현’, ‘구성’, ‘내용’ 세 가지로 구성하였다.
수학 과목의 세부 진단 영역은 교육부(2015)의 고등학교 수학 교육과정을 근거로 설정하였다. 고등학교 수학은 공통, 일반, 진로 세 가지 영역으로 구분되며, 본 연구에서는 공통과 일반 영역의 내용을 중심으로 진단 영역을 설정하였다. 이 과정에서 수정 및 조정을 거쳐 ‘문자와 식’, ‘기하’, ‘수와 연산’, ‘함수’, ‘확률과 통계’, ‘대수’, ‘해석Ⅰ’, ‘해석Ⅱ’ 등으로 세부 영역을 구성하였다.
영어 과목의 진단 영역은 J대학의 교양 영어 표준 강의계획서와 기존의 영어 기초학력 진단평가에 대한 연구 결과를 참고하여 도출하였다. 문헌 검토를 통해 진단 영역을 도출한 후, 고등학교 영어 교사와 영어 교육 전문가의 검토를 거쳐, 최종적으로 ‘문법’, ‘독해’, ‘어휘’, ‘대화’ 네 가지를 진단 영역으로 확정하였다.
4차 산업혁명의 도래에 따라 교육 현장에서는 소프트웨어 기초교육의 중요성이 강조되고 있다. 이에 따라 많은 대학들이 ‘컴퓨팅 사고를 활용한 문제해결력’, ‘디지털 자료와 정보 이해’, ‘소프트웨어 문해력’ 등을 교육 목표로 삼아 소프트웨어 기초교육을 실시하고 있다(홍성연 외, 2021). 이러한 배경을 바탕으로 SW를 진단 과목으로 선택하였으며, 진단 영역은 교육부(2022)의 정보 교욱과정을 근거로 설정하였다. SW 과목의진단 영역은 세 개로 ‘컴퓨팅 기초’, ‘인공지능 기초’, ‘SW와 AI로 시작하는 문제해결’이다.
4개 과목의 진단영역을 설정한 후, 문항을 개발하였다. 문항은 설정한 진단영역을 바탕으로 개발하였으며, 고등학교 교사와 해당 과목 관련 석사 학위 이상의 학위를 가진 인력이 문항을 개발하였다.

3.2. 문항반응이론(IRT) 기반 문항은행 구축

3.2.1. 문항 개발 및 자료수집

CAT의 첫 번째 구성요소이자 CAT를 운용하기 위한 가장 첫 번째 단계는 IRT 기반의 문항은행을 구축하는 것이다. 문항은행 구축을 위해 과목별로 글쓰기 253문항, 수학 253문항, 영어 255문항, SW 252문항을 개발하였다. 문항은 과목별로 도출된 진단 영역을 바탕으로 개발되었으며, 개발 과정에는 고등학교 교사와 해당 과목 관련 석사 학위 이상 소지자가 참여하였다. 과목별 진단 영역에 따라 문항 초안을 작성한 후, 이를 기반으로 문항 개발진과 J대학 교양교육 담당자 간의 논의를 통해 문항의 형태와 개발 방향을 설정하였다. 이후 확정된 문항 개발 방향에 따라 문항 초안을 바탕으로 문항을 개발하였고, 이후 동일 과목의 문항 개발자들이 교차 검토를 진행하였다. 마지막으로 J대학 교양교육 담당자들이 최종 검토를 실시하였고, 검토 의견을 반영하여 문항 개발을 완료하였다. 개발이 완료된 문항은 J대학 역량관리 시스템에 탑재하였다.
문항 응답 자료는 J대학의 학부 재학생을 대상으로 대학의 역량관리 시스템을 통해 CBT 방식으로 수집하였다. 자료 수집은 2024년 11월 27일부터 2024년 12월 12일까지 이루어졌다. 수학과 같이 문항 풀이 과정에서 많은 인지적 자원을 요구하는 영역의 경우 학생들의 참여율이 낮아 충분한 자료 수집이 어려울 수 있다. 이를 방지하고, 글쓰기, 수학, 영어, SW 네 개 영역 문항에 대한 자료를 균형 있게 확보하기 위해 각 영역 문항을 균등한 비율로 혼합하여 검사형을 구성하였다. 자료 수집이 필요한 문항은 총 1,013개로, 한 명의 응시자가 모든 문항에 응답하는 것은 현실적으로 어렵기에 이를 감안하여 각 응시자가 풀어야 할 문항의 수를 적절히 제한하면서 모든 문항에 대해 일정 수준 이상의 응답 자료를 확보할 수 있도록 5개의 검사형(test form)을 설계하였다. 각각의 검사형은 약 200개의 문항으로 구성되었으며, 네 개 과목의 문항이 균일하게 배분되도록 영역별로 약 50개의 문항을 선별하였다.
자료수집 기간 동안 총 435명의 자료를 수집하였다. 5개의 검사형에 모두 참여할 수 있도록 허용하여 실제 고유 응시자는 179명이었다. 과목별 문항 분석에 사용된 응답자 수는 글쓰기 179명, 수학 178명, 영어 178명, SW 178명이었으며, 글쓰기를 제외한 나머지 과목 문항에 전혀 응답하지 않은 1명의 자료는 분석 대상에서 제외하였다.

3.2.2. 분석 방법

문항의 심리측정적 속성을 확인하기 위해 고전검사이론과 IRT를 기반으로 문항 분석을 수행하였다. 먼저, 고전검사이론 분석을 통해 문항의 변별도를 평가하였다. 문항 변별도는 문항과 총점 간의 점이연 상관(point-biserial correlation)을 이용하여 평가하였으며, 변별도 값이 0.15 이상인 문항을 선별하였다(Biling & Halsted, 2006).
IRT의 일차원 문항반응모형(unidimensional item response model)을 적용하기 위해서는 일차원성(unidimensionality)과 지역독립성(local independency) 가정을 충족해야 한다. 본 연구에서는 일차원성 가정 검정을 위해 R의 ‘sirt’ 패키지(Robitzsch, 2022)를 사용하여 DETECT 분석을 실시하였으며, DETECT 방법의 세 가지 지수(DETECT, ASSI, RATIO)를 통해 일차원성 가정 충족 여부를 평가하였다(Jang & Roussos, 2007; Zhang, 2007). 일반적으로 일차원 가정이 만족되면 지역독립성은 자연적으로 충족된다(Hambleton et al., 1991).
IRT 기반의 문항은행 구축과 유지의 핵심은 문항은행 내 모든 문항의 모수가 하나의 공통된 척도 위에 놓이도록 공통척도를 구축하는 것이다. 본 연구에서는 5개 검사형의 문항들을 공통척도 상에 위치시키기 위해 동시추정법(concurrent calibration)을 통해 문항의 모수를 추정하였다. 동시추정법은 공통된 사람 혹은 문항을 기준으로 여러 검사형의 문항 모수를 동시에 추정하는 방식으로, 별도의 선형 변환 과정 없이 효율적으로 척도를 통일할 수 있는 장점이 있다(Kolen & Brennan, 2004).
IRT 분석에서는 Rasch 모형을 사용하였다. Rasch 모형은 모든 문항의 변별도를 1로 고정하고, 난이도만을 추정하는 모형이다. 난이도 값은 양수 값으로 커질수록 어려운 문항을, 음수 값으로 작아질수록 쉬운 문항을 의미하며, 0은 중간 난이도의 문항을 나타낸다. 문항의 적합도 평가에 내적합도(INFIT)와 외적합도(OUTFIT) 지수를 사용하였다. 내적합도는 해당 문항이 목표로 하는 능력 수준을 가진 응시자의 비예측적 반응에 민감하며, 외적합도는 극단적인 응답 패턴(예: 높은 능력 수준 응시자가 쉬운 문항을 틀리거나 낮은 능력 수준 응시자가 어려운 문항을 맞추는 경우)에 민감한 지표이다. 문항의 난이도가 -3에서 +3 사이에 위치하고, 적합도 지수가 0.5에서 2.0 사이에 있는 문항을 선별하여 문항은행을 구축하였다(Linacre, n.d.). IRT 분석에는 R의 ‘irtQ’ 패키지(Lim, 2024; Lim & Kang, 2024)를 사용하였다.

3.2.3. 분석 결과

4개 과목의 일차원성을 검정하기 위해 DETECT 분석을 실시하였다. 자료가 일차원성을 충족하는지는 DETECT 방법의 세 가지 지수(DETCET, ASSI, RATIO)를 통해 평가할 수 있다. DETECT 지수가 .20 미만, ASSI가 .25 미만, RATIO가 .36 미만일 경우, 자료가 일차원성을 보인다고 해석할 수 있다(Jang & Roussos, 2007; Zhang, 2007). 4개 과목의 DETECT 분석 결과는 <표 1>에 제시하였다.
<표 1>
과목별 일차원성 검정 결과
과목 DETECT ASSI RATIO
글쓰기 .103 .024 .033

수학 -.014 .038 -.006

영어 .118 .022 .040

SW .030 .003 .011
글쓰기의 일차원성 검정 결과는 DETECT = .103, ASSI = .024, RATIO = .033이었으며, 수학의 일차원성 검정 결과는 DETECT = -.014, ASSI = .038, RATIO = -.006이었다. 영어의 일차원성 검정 결과는 DETECT = .118, ASSI = .022, RATIO = .040이었으며, SW는 DETECT = .030, ASSI = .003, RATIO = .011이었다. DETECT 분석 결과, 모든 과목이 일차원성을 충족하였다.
문항의 변별도, 난이도, 적합도를 종합적으로 고려하여 총 1,013개 문항 중 776개의 양호한 문항을 선별하였다. 문항의 변별도, 난이도, 적합도는 과목별로 분석하였다. 변별도는 점이연 상관을 통해 산출하였으며, 난이도는 수집된 문항 응답 데이터(response patterns)를 기반으로 IRT 분석을 통해 추정하였다. IRT 분석을 통해 산출된 문항의 난이도는 학생들의 실제 응답 데이터에 기반하여 부여되며, 난이도 값이 0보다 클수록 문항이 어려움을 나타내고, 0보다 작을수록 쉬운 문항임을 의미한다. 4개 과목의 문항 난이도 평균은 <표 2>에 제시하였다.
<표 2>
과목별 문항 난이도 평균
과목 영역 영역별 난이도 평균 과목 난이도 평균
글쓰기 구성 0.09 -0.15

내용 -0.20

표현 -0.29

수학 기하 0.42 0.45

대수 0.69

문자와 식 0.61

수와 연산 0.35

함수 0.53

해석Ⅰ 0.62

해석Ⅱ 0.46

확률과 통계 -0.21

영어 문법 0.08 -0.14

독해 -0.27

어휘 -0.25

대화 -0.59

SW 컴퓨팅 기초 -0.24 -0.14

인공지능 기초 0.08

SW와 AI로 시작하는 문제해결 -0.22
과목별 문항 수는 글쓰기 170개, 수학 187개, 영어 214개, SW 205개였다. 글쓰기 문항의 난이도 평균은 -0.15이며, 범위는 -1.81 ~ 2.54였다. 수학 문항의 난이도 평균은 0.45로, 범위는 -1.32 ~ 2.03이었다. 영어 문항의 난이도 평균은 -0.14이며, 범위는 -1.33 ~ 2.38였다. SW 문항의 난이도 평균은 -0.14이며, 범위는 -1.58 ~ 2.25였다.
각 과목의 진단 영역별 평균 난이도를 살펴보면, 글쓰기의 경우 ‘구성’ 영역이 0.09, ‘내용’ 영역이 -0.20, ‘표현’ 영역이 -0.29로 ‘표현’, ‘내용’, ‘구성’ 순으로 난이도가 증가하였다. 수학의 경우 ‘기하’ 영역이 0.42, ‘대수’ 영역이 0.69, ‘문자와 식’ 영역이 0.61, ‘수와 연산’ 영역이 0.35, ‘함수’ 영역이 0.53, ‘해석Ⅰ’ 영역이 0.62, ‘해석Ⅱ’ 영역이 0.46, ‘확률과 통계’ 영역이 -0.21였다. 확률과 통계 영역이 가장 쉬운 영역이었고, 대수 영역이 가장 어려운 영역이었다. 영어의 경우 ‘문법’ 영역이 0.08, ‘독해’ 영역이 -0.27, ‘어휘’ 영역이 -0.25, ‘대화’ 영역이 -0.59로 나타났으며, ‘대화’, ‘독해’, ‘어휘’, ‘문법’ 순으로 문항 난이도가 증가하였다. SW의 경우 ‘컴퓨터 기초’ 영역이 -0.24, ‘인공지능 기초’ 영역이 0.08, ‘SW와 AI로 시작하는 문제해결’ 영역이 -0.22로 나타났다. ‘컴퓨팅 기초’ 영역이 가장 쉬운 영역이었으며, ‘인공지능 기초’가 어려운 영역이었다.

3.3. CAT 시스템 구축

3.3.1. CAT 시스템 구축 방법

CAT의 구성요소를 결정하는 것 역시 중요하지만, 가장 중요한 것은 학생들에게 CAT 시험을 제공할 수 있는 소프트웨어(test delivery software)의 적용 가능성이다. 문항은행을 구축하고 CAT의 구성요소를 결정하였더라도 CAT 시험 제공 소프트웨어를 확보하지 못하면 CAT 실시 자체가 불가능하기 때문이다. J대학은 CBT를 실시할 수 있는 역량관리시스템을 보유하고 있지만 CAT는 실시할 수 없어 CAT 시행이 가능한 시스템 구축이 필요하였다.
CAT 기반 검사 소프트웨어(CAT delivery software)의 구축 방식으로는 내부 자체 개발, 외부 평가 회사의 시스템 구매 및 임차, API(application programming interface)를 이용한 알고리즘 연동방법이 있다(Weiss & Sahin, 2024). 본 연구에서는 기존 CBT 시스템에 CAT 알고리즘을 API로 연동하여 J대학 역량관리시스템에 CAT 알고리즘을 구축하였다. CAT 알고리즘은 더캣코리아가 제공하는 LIVECAT 플랫폼(김도경, 서동기, 2020; Seo & Choi, 2020)의 알고리즘을 API로 연동하여 사용하였다.
기존의 CBT 시스템에 연동한 CAT API의 CAT 구성요소는 다음과 같다. 먼저, 시작규칙으로 문항의 노출률을 조절하기 위해 변동 출발 방식을 채택하였다. 문항 선별 규칙은 MFI 방법을 적용하였다. MFI는 학생의 능력을 추정하는 데에 가장 많은 정보를 주는 문항을 선택한다. 정보가 많다는 것은 피험자의 능력을 측정하는 데에 있어 오차가 작으며 정확도가 높은 것을 뜻한다(Hambleton et al., 1991). 대부분의 평가 및 시험에서 MFI를 문항 선별 방법으로 사용하며 다른 문항 선별 방법의 토대가 되기도 한다. 능력 추정 방법으로는 MLE을 사용하였다. 마지막으로 종료규칙으로는 검사 길이와 추정 오차 두 가지 기준을 적용하였다. 이 두 가지 방법은 다양한 평가 및 시험에서 널리 사용되는 규칙으로, 이를 적용하면 고정 길이(fixed-Length) CAT과 가변 길이(variable-Length) CAT를 모두 운영할 수 있다.

3.3.2. CAT 시스템 정확성 및 타당성 검증

기존 CBT 시스템에 CAT API를 연동한 후, API가 정상적으로 연동되었는지 확인하고, CAT 알고리즘의 능력 추정 정확성을 검증하였다. 능력 추정의 정확성은 CAT 시스템을 통해 추정된 학생들의 능력 추정치 및 추정치의 표준오차와 학계 및 현장에서 널리 사용되는 IRT 관련 R 패키지인 ‘irtQ’(Lim, 2024; Lim & Kang, 2024)를 통해 산출한 능력 추정치 및 추정치의 표준오차를 비교하여 진행하였다. 능력 추정 정확성 검증에는 구축된 CAT 시스템을 통해 CAT에 실제로 응시한 J대학 학생들의 자료를 사용하였다.
먼저, CAT 시험에 응시한 9명 학생의 응답 자료(responses pattern data), 능력 추정치와 추정 오차를 시스템에서 추출하였다. 추출한 응답 자료를 ‘irtQ’ 패키지를 통해 CAT 알고리즘과 동일한 능력 추정 방법인 최대우도추정법으로 추정한 능력 추정치와 표준 오차를 산출하였다. 두 개의 도구를 통해 추정한 학생들의 능력 추정치와 표준오차를 비교하였으며, 결과는 <표 3>에 정리하였다.
<표 3>
CAT 시스템 능력 추정 정확성 검증 결과
사례 CAT 시스템 irtQ 패키지 차이값



능력 추정치 표준오차 능력 추정치 표준오차 능력 추정치 표준오차
1 1.19 0.33 1.19 0.33 0 0

2 1.68 0.35 1.68 0.35 0 0

3 1.21 0.33 1.21 0.33 0 0

4 0.89 0.33 0.89 0.33 0 0

5 1.63 0.35 1.63 0.35 0 0

6 -2.58 0.42 -2.58 0.42 0 0

7 0.35 0.32 0.35 0.32 0 0

8 0.03 0.32 0.03 0.32 0 0

9 0.84 0.33 0.84 0.32 0 0
총 9개의 사례를 분석한 결과, 두 도구 간 능력 추정치 및 표준오차의 차이는 평균적으로 소수점 여덟 번째 자리에서 발생하였으며, 매우 작은 차이를 보였다. 더불어 J대학 학생들이 CAT 시험에 응시하는 동안 시험이 중간에 중단되거나 멈추는 현상 없이 모든 시험이 종료규칙에 맞춰 온전히 종료되었다. 능력 추정 정확성 검증 결과를 종합적으로 살펴보았을 때, CAT API 알고리즘의 추정 정확성이 확보되었으며, API도 정상적으로 작동하여 기존 시스템에 연동하는 것에 문제가 없음을 확인하였다.

4. 결론 및 제언

많은 대학들에서 기초학력을 진단하기 위해 주로 사용되는 지필검사나 CBT 같은 방법은 고정형 평가로 개별 응시자의 능력이나 특성, 응답 패턴을 반영하기 어려워 검사 효율성과 측정의 정확도가 저하될 수 있고, 불필요하게 많은 문항으로 검사 피로도가 크다는 한계점이 있다(Seo, 2017; Wise, 2014). 본 연구에서는 이러한 문제점을 극복하기 위해서 CAT 기반의 대학생 기초학력 진단체계를 개발하였다. 진단 영역은 글쓰기, 수학, 영어, 소프트웨어로 총 4개 영역이며, 영역별로 IRT를 이용하여 추정된 문항모수를 탑재한 문항은행을 구축한 후 양호한 문항들을 선별하여 CAT 시스템을 구현하였다. 이 연구는 크게 네 가지 연구 측면에서 의의가 있다. 첫째, CAT 방식을 통해 기초학력 진단 대상자가 적극적으로 기초학력 진단평가에 참여하게 할 수 있다. 기초학력 진단도구는 학생의 성취수준을 진단하여 부족한 기초학력을 보충해주기 위한 목적이 크기 때문에 학생들의 적극적이고 자발적인 참여를 전제로 한다. CAT는 학생의 능력 수준에 따라 적절한 문항만을 제공하여 짧은 문항 수로도 정확한 능력 측정이 가능하며, 기존의 평가 방식에 비해 평가 소요 시간을 단축할 수 있다는 장점이 있어 피험자의 피로도를 줄이고 평가 참여율을 높일 수 있다(Wise, 2014). 기초학력 부진으로 인해 저학년 때 학업을 중단하는 학생들이 적지 않다는 점을 고려해보면, 신입생의 기초학력을 조기에 진단하는 과정은 학내에서 기초학력 증진을 목적으로 제공되는 다양한 처방적 활동의 실효성을 높이기 위한 핵심적인 선행 단계로서 매우 중요한 의미를 지닌다. 교양교육에서 다루는 기초문해교육은 대학 교육을 위해 필요한 수준의 기초학업 능력을 함양하는 데 목표가 있으므로, CAT를 통한 조기 관리를 통해 기초결손이 타 과목의 학습 부진으로 이어지는 연쇄를 끊어내고 학생들의 학업중단을 감소시키는 데 핵심적인 기능을 할 수 있을 것이다.
둘째, 적응적 학습환경(adaptive learning environments)을 위한 맞춤형 평가를 구축하였다. 진단평가의 목적은 교육 초기에 학습자들을 적절하게 배치하거나 교육이 진행됨에 따라 학습 결함의 근본적인 원인을 발견하는 것이다(Bloom et al., 1971). 신입생들을 대상으로 하는 CAT 기반의 기초학력 진단은 검사 결과에 따라 실시간 피드백을 제공함으로써 학습자가 자신이 부족한 부분을 인식하고 보완할 수 있는 기회를 제공할 수 있다. 더욱이 CAT를 활용하여 종단 평가를 실시할 경우, 별도의 측정학적 조정 없이도 학습자 내 및 학습자 간 능력을 직접 비교할 수 있어 학습 성장 과정의 추적도 가능하다. CAT 평가 시스템을 통해 반복적이고 정기적인 평가를 통해 개별 학생의 기초학력 변화 추이를 정량적으로 분석할 수 있으며, 이에 따라 학습자들에게 적응적인 학습환경을 제공해 줄 수 있을 것이다. 본 연구에서는 CAT를 통해 측정된 학생들의 평가 결과를 대학의 학습 지원 시스템과 연계하여 수준별로 분반된 기초교양 교과목 중 자신의 수준에 적절한 과목을 수강신청 할 수 있도록 권고하는 시범 적용 수준으로만 도입할 수 있었다. 그러나 진단결과를 보다 적극적으로 활용한다면, 실제 기초교양 과목을 운영하는 교수자가 각 학생들의 성취 저해 요인을 근거 기반으로 파악하고 학습자마다 과제물과 학습내용을 달리 부여하거나, 효과적인 수업 활동을 위해 학습자들을 그룹화하는 데 근거자료로 활용하는 등 수업 안팎에서도 보정학습을 위한 자료로 활용될 수 있다.
셋째, 본 연구는 대학 교육 현장에 실제로 CAT 시스템을 구축하고 이를 처음으로 적용하여 시행하였다는 점에서 교육 현장에서 실무적으로 큰 의의를 지닌다. 기존 국내 CAT에 관한 연구들은 대부분 CAT 구성요소에 따른 효율성과 정확성, 특정 조건 하에서의 최적의 CAT 구성요소 선택, 진행 중인 평가에 대한 CAT 적용 가능성을 검토하는 모의연구(simulation study)에 한정되어 있고, 대학 교육 현장에 실제로 CAT를 구현하고 실시한 경험은 거의 없다. 특히, 본 연구에서 제안한 IRT 기반 문항분석으로 문항의 난이도, 변별도, 추측도를 정밀하게 계산하고, 이를 바탕으로 응시자의 능력을 보다 객관적으로 추정한 설명 가능한 인공지능형 평가 체계가 학교 현장에 구현된 적은 없다. 본 연구는 고전검사이론 기반의 단순 점수 비교를 넘어 학생들의 점수를 보다 정밀하게 진단하여, 과학적이고 공정한 설명 가능한 인공지능형 평가 체계를 구현하였다는 점에서 큰 의미가 있다.
넷째, 본 연구에서는 API를 통해 기존 평가 시스템 내에 CAT 알고리즘을 구축하여 시간적으로 비용적으로 보다 효율적인 방법을 제시하였다. CAT는 정교한 설명 가능한 알고리즘으로 구성되며 각 구성요소마다 다양한 방법들이 존재하여 현장에서 실제로 사용할 수 있는 CAT 기반 검사 소프트웨어(CAT delivery software)를 개발하는 데 상당한 자원이 소요된다. 특히 CAT 기반 검사 소프트웨어 개발에는 CAT를 전공한 심리측정전문가의 참여가 필요하고, 평가 시스템이 이미 구축되어 있는 경우 신규 개발이나 대규모 시스템 개편이 어려운 경우가 많다. 본 연구는 기존 평가 시스템의 큰 변경 없이 API를 통해 CAT 시스템을 효율적으로 구축하였고, 이를 통해 CAT 기반 검사 소프트웨어 구축에 초기 비용이 크게 들 필요가 없음을 보였다. 또한, 처음으로 적용된 CAT 기반 API의 정확성과 기존 평가 시스템에 쉽게 적용할 수 있음을 경험적으로 확인하였다는 점에서 의의가 있다.
그러나 CAT를 활용한 기초학력 진단체계를 보다 성공적으로 활용하기 위해서는 다음과 같은 노력이 필요하다. 첫째, 문항의 지속적인 품질관리가 필요하다. 문항은행의 문항 수를 늘리고, 기초학력 진단과 문항의 분석 과정에서 변별도, 난이도, 적합도가 적절하지 않다고 판단되는 문항들을 지속적으로 수정하고 관리해야 한다. 특히 교육과정이 빠르게 변화하는 분야에서는 문항 내용의 업데이트가 매우 중요하다. CAT의 효율성과 정확성은 문항 노출 제어(item exposure control), 시험 내용의 균형(content balancing) 등 운영 알고리즘 정교화에 좌우되므로 문항을 수정하고 관리할 때에는 내용 전문가와 측정 전문가의 협업이 반드시 필요하다(Han, 2018).
둘째, 진단이 종료되었을 때 실시간으로 제공되는 피드백을 보다 구체적으로 제공할 필요가 있다. 교육적 맥락에서 피드백은 현재의 수준과 도달하고자 하는 수준 간 격차를 줄이기 위해 학습자에게 제공되는 정보이다(Sadler, 1998). 교정적 기능으로서의 피드백은 일반적일 때보다 구체적일 때, 암시적일 때보다 명확할 때 더욱 효과적이라고 밝혀져 있다(Brophy & Good, 1986). CAT 시스템에서 제공하는 피드백은 컴퓨터와 학습자간의 상호작용이므로 정⋅오에 대한 판단을 즉각적으로 내릴 수 있고, 적절한 시기에 차별화된 피드백을 제공할 수 있다는 장점이 있다. 따라서 진단 결과에 따라 수준별 교과목을 추천해주는 피드백과 함께 특정 하위영역(ex. 글쓰기 교과목 중 ‘문맥 이해’)에서 낮은 점수를 보이는 학생들에게 지속 가능한 피드백이 제공된다면 CAT를 활용한 기초학력 진단체계가 교육 환경을 보다 본질적으로 개선할 수 있을 것이다.
셋째, 인지적 영역뿐 아니라 비인지적 영역의 검사와 함께 종합적인 분석이 이루어질 필요가 있다. CAT는 기초학력 진단 외에도 성격 검사나 심리 검사 등과 같은 비인지적 영역으로 확장하여 학생 맞춤형 지원 체계를 구축하는 데 활용될 수 있다. 이를 위해 CAT을 통해 측정된 학생의 진단 결과를 대학 내 다양한 지원 체계와 유기적으로 연계⋅통합하는 방안을 마련해야 한다. 특히 심리적 지원 체계 및 진로⋅취업 지원 시스템과의 연계를 통해 학생의 대학 생활 적응과 졸업 후 진로 설계를 지원하는 심층적이고 통합적인 지원 모델을 구축함으로써, 학생 맞춤형 교육의 질을 한층 높일 수 있을 것이다.
이처럼 CAT 시스템을 통해 사전에 학습자의 수준을 진단하면, 개별 학생의 역량 수준을 고려하여 보다 효과적인 교수설계가 가능해져 기초학력 향상에 도움이 될 수 있다. 뿐만 아니라 학습분석과의 연계를 통해 초개인화 학사지도 체계를 구현하면 학업 및 진로 설계에도 도움을 줄 수 있을 것이다. 대학에서 CAT의 활용은 단순한 평가의 기능을 넘어, 전공⋅교양⋅진로 지도를 포괄하는 통합적 자기주도적 학습관리 설계 구축으로 이어질 것이다.

참고문헌

Arslan, B., Lehman, B., Tenison, C., Sparks, J. R., López, A. A., Gu, L., & Zapata-Rivera, D. (2024). Opportunities and challenges of using generative AI to personalize educational assessment. Frontiers in Artificial Intelligence, 7:1460651.https://doi.org/10.3389/frai.2024.1460651.
crossref pmid pmc
Biling, D. M., & Halstead, J. A. (2016). Teaching in nursing: A guide for faculty, St. Louis, MO: Elsevier.

Bloom, B. S., Hastings, J. T., & Madaus, G. F. (1971). Handbook on formative and summative evaluation of student learning, New York: McGraw-Hill.

Brophy, J., & Good, T. (1986). Teacher behaviour and student achievement, Wittrock,. NLC.

Graduate Management Admission Council. (n.d). The GMAT exam,
https://www.gmac.com/gmat-other-assessments/about-the-gmat-focus-edition/gmat-focus-edition

Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory, Sage.

Han, K. C. T. (2018). Components of the item selection algorithm in computerized adaptive testing. Journal of Educational Evaluation for Health Professions, 15:7.https://doi.org/10.3352/jeehp.2018.15.7.
crossref pmid pmc
Hong, S. Y., Goo, E. H., Shin, S. H., Lee, T. K., & Seo, J. Y. (2021). Development the measurement tool on the software educational effectiveness for non-major undergraduate students. The Journal of Korean Association of Computer Education, 24(1), 37-46.
[홍성연, 구은희, 신승훈, 이택균, 서주영. (2021). 대학 소프트웨어 기초교육 효과성 측정도구 개발. 컴퓨터교육학회 논문지, 24(1),37-46.].

Jang, A. K., & Yang, J. W. (2013). A qualitative study on the experiences of students being on and overcoming academic probation. Korea Journal of Counseling, 14(2), 995-1013.
[장애경, 양지웅. (2013). 대학생의 학사경고 경험과 극복과정에 관한 질적 연구. 상담학연구 14(2), 995-1013.].
crossref
Jang, E. E., & Roussos, L. (2007). An investigation into the dimensionality of TOEFL using conditional covariance-based nonparametric approach. Journal of Educational Measurement, 44(1), 1-21.
crossref
Kim, A. R., & Oh, M. J. (2023). An analysis of the effectiveness of the basic mathematics skills program for college freshmen: Focusing on the case of “University K”. Journal of Education & Culture, 29(6), 425-444.
[김아름, 오미자. (2023). 대학 신입생 대상 수학기초학력증진 프로그램의 효과성 분석: K대학 사례를 중심으로. 교육문화연구 29(6), 425-444.].

Kim, D., & Seo, D. (2020). Verification of the accuracy and efficiency of a web-based platform (LIVECAT) for implementing computer-based tailored testing. Journal of the Korea Institute of Information Technology, 18(4), 77-87.
[김도경, 서동기. (2020). 컴퓨터 기반 맞춤형 검사의 구현을 위한 웹 기반 플랫폼(LIVECAT)의 정확성 및 효율성 검증. 한국정보기술학회논문지 18(4), 77-87.].

Kolen, M. J., & Brennan, R. L. (2004). Test equating, scaling, and liking: Methods and practices, Springer.

Korea National Institute for General Education. (2022 2022 standard model for university general and basic education,
https://www.konige.kr/data/general_edu.php[한국교양기초교육원. (2022). 2022 대학 교양기초교육의 표준 모델. https://www.konige.kr/data/general_edu.php]

Lee, J. H., & Cho, K. L. (2021). A study on the prediction model for the ration of mathematics low-performing students in middle school using machine learning. Journal of Educational Technology, 37(1), 95-129.
[이종현, 조규락. (2021). 머신러닝을 활용한 중학교 수학 기초학력 미달 비율 예측모형 탐구. 교육공학연구 37(1), 95-129.].

Lee, S. A., Choi, H. K., Jeong, T. S., Yoo, D. Y., Park, H. Y., Seo, G. J., & Woo, M. Y. (2021). A study on the perception of basic academic ability concepts and policies among Jeollabuk-do elementary, middle, and high school teachers. (Jeonbuk Education 2021-511). Jeollabuk-do Office of Education Research Information Center,
[이순아, 최홍규, 정태식, 유대영, 박휴용, 서길주, 우문영. (2021). 전라북도 초⋅중⋅고 교원의 기초학력 개념과 정책에 대한 인식연구 (전북교육 2021-511). 전라북도교육청교육연구정보원.].

Linacre, J. M.. (n.d.). Reasonable mean-square fit values,
https://www.rasch.org/rmt/rmt83b.htm

Lim, H.. (2024 irtQ: Unidimensional item response theory modeling (Version 0.2.1) [Computer software],
https://CRAN.R-project.org/package=irtQ

Lim, H., & Kang, K. (2024). The irtQ R package: A user-friendly tool for item response theory-based test data analysis and calibration. Journal of Educational Evaluation for Health Professions, 21:23.
crossref pmid pmc pdf
Ministry of Education. (2015 Mathematics Curriculum,
(No. 2015-74). Ministry of Education
https://www.moe.go.kr/boardCnts/viewRenew.do?boardID=141&lev=0&statusYN=C&s=moe&m=0404&opType=N&boardSeq=60747[교육부. (2015). 수학과 교육과정 (제2015-74호). 교육부. https://www.moe.go.kr/boardCnts/viewRenew.do?boardID=141&lev=0&statusYN=C&s=moe&m=0404&opType=N&boardSeq=60747]

Ministry of Education. (2019
(March 29)Ensuring basic academic ability for every child,
[Press Release]
https://www.moe.go.kr/boardCnts/viewRenew.do?boardID=294&boardSeq=77172&lev=0&searchType=null&statusYN=W&page=1&s=moe&m=020402&opType=N[교육부. (2019. 3. 29.). 한 아이도 놓치지 않고 기초학력 책임진다. [보도자료]. https://www.moe.go.kr/boardCnts/viewRenew.do?boardID=294&boardSeq=77172&lev=0&searchType=null&statusYN=W&page=1&s=moe&m=020402&opType=N]

Ministry of Education. (2019
(March 29)Measures to enhance support for basic academic ability for a happy start,
[Press Release]
https://www.moe.go.kr/boardCnts/viewRenew.do?boardID=294&boardSeq=77172&lev=0&searchType=null&statusYN=W&page=1&s=moe&m=020402&opType=N
[교육부. (2019. 3. 29.). 행복한 출발을 위한 기초학력 지원 내실화 방안, [보도자료]. https://www.moe.go.kr/boardCnts/viewRenew.do?boardID=294&boardSeq=77172&lev=0&searchType=null&statusYN=W&page=1&s=moe&m=020402&opType=N]

Ministry of Education. (2022 Practical arts (Technology⋅Home economics)/information curriculum (No. 2022-33). Ministry of Education,
https://www.moe.go.kr/boardCnts/viewRenew.do?boardID=141&boardSeq=93458&lev=0&searchType=null&statusYN=W&page=1&s=moe&m=040401&opType=N[교육부. (2022). 실과(기술⋅가정)/정보과 교육과정 (제2022-33호). 교육부. https://www.moe.go.kr/boardCnts/viewRenew.do?boardID=141&boardSeq=93458&lev=0&searchType=null&statusYN=W&page=1&s=moe&m=040401&opType=N]

Ministry of Education. (2024, June 18). Announcement of the national academic achievement assessment results [Press Release],
https://www.moe.go.kr/boardCnts/viewRenew.do?boardID=294&boardSeq=99138&lev=0&searchType=null&statusYN=W&page=1&s=moe&m=020402&opType=N[교육부. (2024. 6. 18.). 국가수준 학업성취도 평가 결과 발표, [보도자료]. https://www.moe.go.kr/boardCnts/viewRenew.do?boardID=294&boardSeq=99138&lev=0&searchType=null&statusYN=W&page=1&s=moe&m=020402&opType=N]

National Council of State Boards of Nursing (n.d). Computerized adaptive testing(CAT): A look into the NCLEX scoring method. NCLEX,
https://www.nclex.com/computerized-adaptive-testing.page

Pekrun, R., Goetz, T., Frenzel, A. C., Barchfeld, P., & Perry, R. P. (2011). Measuring emotions in students'learning and performance: The achievement emotions questionnaire (AEQ). Contemporary Educational Psychology, 36(1), 36-48.
crossref
Robitzsch, A.. (2022 srit: Supplementary item response theory models (R package version 3.12-66) [Computer software]. The Comprehensive R Archive Network,
https://CRAN.R-project.org/package=sirt

Sadler, D. R. (1998). Formative assessment: revisiting the territory. Assessment in Education, 5(1), 77-84.
crossref
Seo, D. G. (2017). Overview and current management of computerized adaptive testing in licensing/certification examinations. Journal of Educational Evaluation for Health Professions, 14:17.https://doi.org/10.3352/jeehp.2017.14.17.
crossref pmid pmc
Seo, D. G., & Choi, J. (2020). Introduction to the LIVECAT web-based computerized adaptive testing platform. Journal of Educational Evaluation for Health Professions, 17:27.
crossref pmid pmc pdf
Seong, S. H., & Han, Y. Y. (2023). A study on the current state and adaptation of the cross-entry students between the field of liberal arts and science: Focusing on the case of S university. Korean Journal of General Education, 17(2), 307-324.
[성신형, 한윤영. (2023). 문⋅이과 교차지원 현황 및 대학적응에 관한 연구 - S대학교 사례를 중심으로. 교양교육연구 17(2), 307-324.].
crossref pdf
Seong, Y. G., Lee, H. B., Kim, S, S., Jeong, M. R., & Park, M. J. (2020). The direction of curricluim development for the learning of academically low achieving students : With reference to high school credit system (Ministry of Education - Commissioned - 2020-05). Ministry of Education,
[성열관, 이형빈, 김성수, 정미라, 박민정. (2020). 기초학력 보장을 위한 교육과정 개발 방향 연구-고교학점제를 중심으로 (교육부-용역-2020-05). 교육부.].

Seoul National University Education Research Institute. (2011). Dictionary of educational terms, Seoul: Hawoodongseol Publishing,
[서울대학교 교육연구소. (2011). 교육학용어사전. 서울: 하우동설.].

Thompson, N. A., & Weiss, D. J. (2011). A framework for the development of computerized adaptive tests. Practical Assessment, Research and Evaluation, 16(1),
https://doi.org/10.3390/electronics10091020.

Tsutsumi, E., Kinoshita, R., & Ueno, M. (2021). Deep item response theory as a novel test theory based on deep learning. Electronics, 10(9), 1020.
crossref
Usher, E. L., & Pajares, F. (2006). Sources of academic and self-regulatory efficacy beliefs of entering middle school students. Contemporary Educational Psychology, 31:124-141.
crossref
Wainer, H. (2000). Introduction and history, Edited by Wainer H, Dorans N. J, Eignor D, Flaugher R, Green B. F, Mislevy R. J, Steinberg L, Thissen D, Computerized adaptive testing: A primer, 2nd ed. 1-20. Mahwah, NJ: Erlbaum.

Weiss, D. J., & Kingsbury, G. G. (1984). Application of computerized adaptive testing to educational problems. Journal of Educational Measurement, 21(4), 361-375.
crossref
Weiss, D. J., & Sahin, A. (2024). Computerized adaptive testing: From concept to implementation. Guilford Publications.

Wise, S. L. (2014). The utility of adaptive testing in addressing the problem of unmotivated examinees. Journal of Computerized Adaptive Testing, 2(1-4), 1-17.

Yeung, C. K. (2019). Deep-IRT: Make deep learning based knowledge tracing explainable using item response theory. arXiv preprint arXiv, 1904.11738.

Zhang, J. (2007). Conditional covariance theory and DETECT for polytomous items. Psychometrika, 72(1), 69-91.
crossref pdf


ABOUT
ARTICLE CATEGORY

Browse all articles >

BROWSE ARTICLES
EDITORIAL POLICY
AUTHOR INFORMATION
Editorial Office
Inje University
197, Inje-ro, Gimhae-si, Gyeongsangnam-do 50834, Republic of Korea
Tel: +82-55-320-3737    E-mail: biokjy@inje.ac.kr                

Copyright © 2022 by The Korean Association of General Education.

Developed in M2PI

Close layer
prev next