Korean J General Edu Search

CLOSE


Korean J General Edu > Volume 19(3); 2025 > Article
대학 글쓰기 교육에서 교수자⋅동료⋅AI 피드백의 특성 및 타당도 비교-대학생 글쓰기의 전형적 문제를 포함한 논증적 글을 중심으로

Abstract

이 연구는 대학 글쓰기 교육의 세 피드백 주체(교수자⋅동료⋅AI)가 제공하는 피드백의 특성과 타당도를 분석하여, 주체별 피드백의 효과를 종합적으로 비교하는 데 목적을 두었다. 이를 위해, 대학생 글쓰기의 전형적 문제를 포함한 논증적 글에 대해 각 주체가 동일한 평가 기준을 바탕으로 피드백을 작성하게 했다. 이후, 작성된 피드백을 대상 영역별·내용 유형별로 나누어 특성을 고찰하고, 피드백의 타당도를 평정했다.
연구 결과, 교수자 피드백은 전문성을 바탕으로 글의 고유한 문제에 가장 적확하게 대응했고, 타당도도 월등히 높았다. 교수자는 글의 다양한 영역별 문제를 통합적으로 연결하는 피드백을 제공하는 유일한 주체였으며, 피드백을 학습자의 쓰기 능력 향상을 위한 교육적 개입의 수단으로 활용했다. 동료 피드백은 정서적 지지를 통해 학습자의 쓰기 효능감을 증진하고 적용 가능성이 높은 실용적 조언을 제공하는 경향을 보였다. 그러나 글에 명시적으로 드러난 요소에 대해서만 언급하고, 동료의 쓰기 수준에 따라 피드백의 타당도가 크게 달라졌다. AI 피드백은 즉시적⋅반복적으로 이용 가능하고, 글의 구조나 표현, 이유나 근거의 존재 유무와 같은 표면적 요소에 대한 타당도가 높았다. 그러나 심층적인 내용 판단에 취약하고, 맥락과 무관한 정보나 피상적 조언을 제공하는 양상이 자주 나타났다.
이러한 결과를 토대로, 이 연구는 앞으로의 대학 글쓰기 교육에서 세 주체의 피드백을 활용할 수 있는 실제적인 방안에 대해 제언했다. 특히, 피드백의 목적에 따라 단계를 구분하여 각 단계에 적합한 주체가 순차적으로 피드백을 제공하는 <주체별 단계적 피드백 방안>, 교수자⋅동료⋅AI의 피드백을 모두 제공한 뒤 학습자가 그 결과를 비교⋅분석하여 피드백 수용 여부를 결정하는 <주체별 피드백에 대한 비판적 성찰 활동>을 제안했다.

Abstract

This study examines the distinct characteristics and validity of feedback provided by instructors, peers, and AI in the context of college writing instruction. Utilizing a shared evaluation rubric, each group reviewed the same set of argumentative essays. The feedback was analyzed based on its thematic focus and content type.
Instructor feedback, informed by disciplinary knowledge and pedagogical intent, most effectively addressed specific issues in student writing. It was also the only type of feedback to consistently integrate observations across different parts of the text, thereby supporting students’ overall writing development. Peer feedback, while often encouraging and occasionally practical, tended to emphasize surface-level features and varied widely depending on the reviewer’s own writing competence. AI-generated feedback offered consistent and readily available comments, particularly in assessing structure, language use, and the presence of reasoning or evidence. However, it often lacked depth in content-related analysis and frequently produced advice that was generic or insufficiently attuned to context.
Based on these findings, the study proposes structured ways to combine different feedback sources. It recommends a stage-based model, where feedback is provided sequentially depending on instructional goals, and a critical reflection activity, in which students compare feedback from all sources to make informed revision decisions.

1. 서론

대학 글쓰기 교육에서 피드백(feedback)은 학습자에게 가장 효과적인 교육 방안 중 하나이면서도, 교수자에게는 상당히 부담스러운 과업이다. 피드백은 학습자의 글쓰기에 일대일로 개입해, 개인의 수준과 필요에 맞는 맞춤형 조언을 제공하는 강력한 교육적 수단이다. 학생들은 이를 통해 타인의 관점을 반영하여 글을 비판적으로 점검하고 사고를 확장하며, 쓰기 능력과 동기를 함께 향상시킬 수 있다. 그러나 한 학기에 수십 명에서 많게는 수백 명의 학생들을 지도하는 교수자의 입장에서, 피드백은 전체 학생의 모든 글에 제공하기에는 시간과 에너지가 과도하게 소모된다. 그 효과성은 인정하지만, 현실적인 부담을 느낄 수밖에 없다.
그래서 많은 교수자들은 동료 피드백을 보조적인 피드백 방안의 하나로 시행해 왔다. 동료 피드백은 교수자의 과도한 피드백 부담을 경감하는 현실적인 기능 외에도, 글을 쓴 필자와 피드백을 제공하는 동료의 눈높이가 유사하여 보다 친근하고 실제 수정 가능성이 높은 조언을 제공할 수 있는 장점이 있다. 또한 학생들이 동료의 글에 피드백을 하는 과정에서 학습한 내용을 적용하고, 타인의 글을 객관적으로 분석하는 훈련을 할 수 있는 교수⋅학습 방안으로도 활용도가 높다. 그러나 피드백의 질이 동료의 쓰기 수준에 따라 달라지기에, 타당하지 않은 피드백이 제공될 가능성(이윤빈⋅정희모, 2014)도 존재한다. 이로 인해 동료 피드백이 교수자의 피드백을 온전히 대체하기에는 한계가 있다는 인식도 함께 공유되어 왔다.
이러한 상황에서, 최근 생성형 AI가 대중화되면서 AI 피드백이 교수자 피드백을 대체 또는 강력히 보조하는 대안적 피드백이 될 수 있는가에 대한 관심이 높아지고 있다. AI 피드백은 인간 피드백과 달리 시간과 에너지의 과도한 투입 없이 일대일 피드백을 즉시 제공할 수 있어, 이를 활용할 수 있다면 교수자의 부담을 크게 경감하고 학생들에게도 접근성 높은 글쓰기 교육 방안으로 기능할 것으로 기대된다. 그러나 생성형 AI 피드백의 기계적인 서술이나 정서적 상호작용의 결여, 글의 맥락을 제대로 이해하지 못한 피상적 조언에 대한 우려(안효원 외, 2025; Liang et al., 2023)도 동시에 제기되고 있으며, AI 피드백이 갖는 장점과 한계에 대한 실증적 분석은 아직 충분히 축적되지 않은 실정이다.
이에 이 연구는 앞으로의 대학 글쓰기 교육에서 주요 피드백 주체로 기능할 교수자, 동료, AI의 피드백을 종합적으로 고찰하고자 한다. 이 연구의 목적은 대학 글쓰기 교육에서 교수자⋅동료⋅AI가 제공하는 피드백의 특성 및 타당도를 비교 분석하여, 주체별 피드백의 실제적 효과를 확인하는 데 있다. 구체적으로, 이 연구는 대학생이 논증적 글을 쓸 때 자주 발생하는 전형적인 문제점들을 포함한 동일한 글 세 편에 대해 (1) 세 주체(대학 글쓰기 교수자, 대학생 동료, 생성형 AI)가 동일한 평가 기준에 따라 제공한 피드백의 특성을 대상 영역별⋅내용 유형별로 나누어 고찰하고, (2) 주체별 피드백의 타당도를 확인하여 각 피드백의 강점 및 한계를 검토할 것이다. 나아가 이러한 작업을 바탕으로, 앞으로 대학 글쓰기 교육에서 세 주체의 피드백을 활용할 수 있는 방안을 모색해 보고자 한다.
이 연구가 다루는 구체적인 연구 문제는 다음과 같다.
  • 1. 논증적 글에 대한 교수자⋅동료⋅AI 피드백의 개수 및 전반적인 타당도는 어떠한가?

  • 2. 논증적 글에 대한 교수자⋅동료⋅AI 피드백의 대상 영역별 특성 및 타당도는 어떠한가?

  • 3. 논증적 글에 대한 교수자⋅동료⋅AI 피드백의 내용 유형별 특성 및 타당도는 어떠한가?

2. 선행 연구 검토

2020년대 이전까지 글쓰기 피드백 연구는 교수자 피드백과 동료 피드백의 특성 및 교육적 효과를 각각 또는 비교하여 고찰하는 작업이 주류를 이루었다. 교수자 피드백은 전문성과 권위를 바탕으로 학습자에게 높은 신뢰를 얻지만, 피드백 방식이나 내용에 따라 학습자와의 인식 차이가 발생하고, 이로 인해 피드백 반영의 실효성이 떨어지는 경우도 있다는 비판이 제기되어 왔다(Hamp-Lyons & Chen, 1999; Zacharias, 2007; Zhan, 2016 외).
Hamp-Lyons & Chen(1999)은 교수자는 학생의 사고를 유도하기 위한 질문이나 암시적 표현을 사용한 피드백을 선호하는 반면 학생들은 칭찬과 조언을 포함한 명시적 피드백을 선호하고, 교수자의 열린 질문이나 ‘?’ 같은 기호는 무의미하다고 여기는 경향이 있다고 보고했다. 또한 학생들은 단순한 문장 수정이나 직접적 지시가 포함된 피드백은 잘 반영하지만, 능동적 해석이나 글의 재구성이 필요한 피드백은 거의 반영하지 않았다. Zacharias(2007) 역시 학생들은 교수자 피드백을 ‘권위 있는 판단’으로 인정하지만 피드백이 과도하거나 모호할 경우 좌절감과 혼란을 경험하며, 자신의 시각과 다른 피드백을 억지로 반영해야 한다는 의무감에 불편함을 느끼는 경향이 있다고 지적했다. 또한 학생들은 표현을 교정하는 피드백은 선호하지만, 내용 변화를 유도하는 피드백은 대체로 추상적이고 수정 난이도가 높아 실제적인 유용성이 떨어진다고 인식한다고 분석했다.
이러한 교수자 피드백의 한계를 보완하기 위한 대안으로, 동료 피드백의 교육적 가능성을 탐색하는 연구들도 활발히 이루어져 왔다. 동료 피드백은 필자와 피드백 제공자가 수평적 관계에 있다는 점에서 보다 친숙하고 실질적인 수정 유도를 가능하게 하며, 학습자 간 상호작용을 통해 쓰기 역량을 향상시키는 효과적인 교수학습 방안으로 주목받아 왔다(정희모⋅이재성, 2008; Paulus, 1999; Zhao, 2010 외).
Paulus(1999)는 대학생들이 교수자와 동료의 피드백을 모두 받은 뒤 작성한 수정고를 분석했다. 그 결과, 표면적 수정은 필자의 자기 주도적 수정에서 많이 발생하지만, 의미 수준의 수정은 교수자(59%)와 동료 피드백(63%)에 의해 유도되는 경우가 많다고 보고했다. 연구자는 교수자 피드백은 수정 방향을 명확히 제시하고 동료 피드백은 실질적인 텍스트 변화를 야기한다는 점에서 두 피드백이 상호보완적으로 기능할 수 있음을 강조했다. 국내에서는 정희모⋅이재성(2008)이 수정고를 작성하는 대학생들을 세 집단(교수⋅동료⋅자기 첨삭 집단)으로 나누어 수정고의 질 향상도를 비교했다. 연구 결과, ‘동료 > 교수 > 자기 첨삭’ 순으로 향상도가 높았고, 동료 첨삭은 ‘내용 전개의 일관성’, ‘단락의 논리적 배열’, ‘비문⋅번역투⋅긴 문장’ 부문에서, 교수 첨삭은 ‘주제의 적절성’, ‘비문⋅번역투⋅긴 문장’ 부문에서 유의미한 변화를 유도한 것으로 나타났다. 연구자들은 교수 첨삭이 언제나 가장 효과적이라고 할 수는 없으며, 글의 구성 요소에 따라서는 같은 문화를 공유하는 동료의 첨삭이 오히려 더 큰 효과를 보일 수 있다고 강조했다.
그러나 동료 피드백이 항상 효과적인 것은 아니다. 동료의 쓰기 수준에 따라 피드백의 질이 달라져 잘못된 피드백이 제공될 수 있으며, 오히려 필자의 글에 부정적 영향을 미칠 수 있다는 점은 꾸준히 문제로 제기되어 왔다(이윤빈⋅정희모, 2014; 이윤빈, 2016; Thirakunkovit & Chamcharatsri, 2019 외).
Thirakunkovit & Chamcharatsri(2019)는 교수자 피드백과 동료 피드백이 필자의 글을 개선하는 효과성의 차이를 살핀 연구들을 메타 분석했다. 그 결과, 교수자 피드백의 효과가 가장 컸고(평균 효과 크기: 0.90 Hedges’g), 피드백 훈련을 받은 동료의 피드백이 교수자 피드백에 근접한 효과(0.74 Hedges’g)를 낼 수 있다는 사실을 확인했다. 반면, 훈련 없이 제공된 동료 피드백은 효과의 변동성이 매우 크고 불확실한 것으로 나타났다. 이윤빈⋅정희모(2014)도 동료 피드백의 유형과 타당도를 분석하여, 쓰기 능력 하위 집단의 피드백은 ‘단순 소감형’과 ‘표현 오류 지적형’에 머물러 내용이나 구조상의 의미 있는 변화를 유도하기 어렵고 타당도도 낮았다고 보고했다. 연구자들은 피드백 제공자의 쓰기 능력이 피드백의 타당도를 크게 좌우하므로, 동료 피드백 활동을 학생들의 글을 개선하는 효과적인 활동으로 일반화할 수는 없다고 강조했다.
이처럼 교수자와 동료 피드백의 장점과 한계에 대한 논의가 다양하게 축적된 가운데, 2020년대 들어 생성형 AI가 글쓰기 교육의 장에 등장하면서, 새로운 피드백 제공 주체로서 AI의 특성과 역할을 검토하는 연구들이 진행되고 있다. AI 피드백이 인간 피드백의 한계를 보완할 수 있다는 가능성에 주목한 연구들(전현옥⋅채민정, 2024; 정유남, 2024; Escalnate, 2023; Wang & Han, 2022 외)과 AI 피드백이 갖는 한계에 대해 비판적 인식을 보이는 연구들(권태현, 2024; 안효원 외, 2025; Liang et al., 2023; Seβler et al., 2025 외)이 모두 활발히 제출되고 있다.
Escalnate(2023)는 AI 피드백에 대한 대학생의 인식을 조사했다. 학생들은 AI 피드백이 접근성이 뛰어나 편리하며 글의 구조와 표현에 대해 유용한 조언을 한다고 인식했다. 연구자는 AI 피드백이 학습자의 자기주도적 수정을 조력하는 효과적인 수단이 될 수 있다고 강조했다. Wang & Han(2022)는 교수자 피드백과 AI 피드백을 받은 두 집단의 수정고 질과 사후 글쓰기 성취도를 비교했다. 그 결과, 수정고 질은 교수자 피드백 집단이 높았지만, 사후 성취도는 AI 피드백 집단의 향상도가 유의미하게 높게 나타났다. 연구자들은 AI 피드백은 학습자가 원할 때 언제든 여러 번 받을 수 있어 반복적인 수정의 동인(動因)이 되고, 결과적으로 학습자의 글쓰기 수행 능력을 증진하는 데 기여한다고 주장했다. 국내 연구로는 ‘글쓰기 멘토링’ 프로그램에 챗GPT를 도입하여 활용한 뒤 이에 대한 학생 인식을 조사한 전현옥⋅채민정(2024)이 있다. 학생들은 원할 때 언제든 즉각적인 피드백을 받을 수 있다는 점, 다양한 아이디어와 사례를 제공한다는 점, 개인화된 피드백을 통해 자신이 미처 인식하지 못한 오류나 개선점을 발견하게 한다는 점에서 대체로 긍정적인 인식을 보였다.
한편, Liang et al.(2023)은 학술 논문에 대한 GPT-4 기반 피드백과 인간 동료 평가자의 피드백 일치율을 분석했다. 그 결과, 양자는 평균 30~39% 수준의 일치율을 보였으나, GPT 피드백은 추상적이고 반복적인 논평을 자주 제공했고, 연구 설계에 대한 깊이 있는 분석이나 논문의 이론적 모순을 짚는 심층적인 조언을 하는 데는 한계를 보였다. 안효원 외(2025)는 AI 코스웨어에 대한 교사 인식 조사를 실시했다. 연구 결과, AI 피드백이 ‘예시 제공’과 ‘오류 지적’ 면에서 일정 수준의 효용성을 지니지만, ‘장르 문법에 대한 고려 부족’, ‘필자 요인에 대한 인식 부족’, ‘교육적 효과에 대한 고려 부족’ 면에서 타당성이 낮고 ‘일관성 부족’, ‘구체성 부족’, ‘정확성 부족’ 면에서 신뢰성 또한 낮다고 보았다.
이처럼 최근의 연구들은 AI 피드백이 접근의 용이성, 결과 출력의 즉시성과 반복성, 다양한 아이디어와 예시 제공의 측면에서 긍정적 가능성을 갖는 동시에, 맥락 이해와 정서적 상호작용의 결여, 정확성⋅구체성⋅일관성 측면에서 한계를 보이고 있음을 함께 지적하고 있다.
이상과 같이, 선행 연구들은 교수자, 동료, AI 피드백의 특성과 한계를 다각도로 고찰함으로써 교육적 시사점을 탐색해 왔다. 그러나 대부분의 연구가 단일 주체의 피드백을 고찰하거나 두 주체의 피드백을 비교하는 데 집중하고 있어, 향후 대학 글쓰기 교육에서 활발히 사용될 세 주체의 피드백을 동일 조건에서 비교하고 그 특성과 타당도를 분석하는 종합적인 접근은 아직 찾아보기 어렵다. 이에 이 연구는 동일한 논증적 글에 대해 교수자, 동료, AI 피드백을 각각 적용하여 그 특성과 타당도를 분석하고, 앞으로 대학 글쓰기 교육에서 주체별 피드백을 활용할 수 있는 실제적인 방안을 모색해 보고자 한다.

3. 연구 방법

3.1. 연구 대상 자료의 선정 및 수집

이 연구의 분석 대상은 대학생의 논증적 글에 나타나는 전형적인 문제들을 포함한 글 3편, 그리고 이에 대해 교수자 5인, 동료 9인, AI(편당 3회 출력)가 각각 피드백을 작성한 글 42편(교수자 피드백 15편, 동료 피드백 18편, AI 피드백 9편)에 포함된 총 699개의 피드백이었다. 연구 대상 자료는 다음과 같이 선정 및 수집되었다.

3.1.1. 피드백 대상 글 A⋅B⋅C의 선정 및 수정

이 연구는 교수자⋅동료⋅AI가 대학생의 논증적 글에 나타나는 전형적인 문제들에 대해 제공하는 피드백의 특성 및 타당도가 어떤 차이를 보이는지 집중적으로 고찰하고자 했다. 그래서 대학생의 논증적 글에 전형적으로 드러나는 문제들을 사전에 선정하고, 해당 문제들이 복합적으로 드러나는 학생 글 3편1)을 채택한 뒤, 문제들이 보다 명확히 부각되도록 연구자가 글을 부분적으로 수정했다. 대학생의 논증적 글에 전형적으로 드러나는 문제점은 관련 선행 연구(국립국어원, 2023; 이희영, 2020)에 기반하여 연구자가 도출한 뒤, 경력 15년 이상의 대학 글쓰기 교수자 2인으로부터 내용 타당도 검증을 받아 확정했다. <표 1>은 논증적 글의 전형적인 문제 유형 및 각 유형이 피드백 대상 글에 포함된 양상을 나타낸 것이다.
<표 1>
논증적 글의 전형적 문제 유형 및 피드백 대상 글(A⋅B⋅C)의 문제 배치
문제 번호 문제 유형 글A 글B 글C
P1 주장 부재 또는 진술 수준 주장

P2 이유 부족 및 논리적 비약

P3 근거 부족 또는 자료 신뢰성 결여

P4 자료 인용 과잉 및 자기 생각 부족

P5 글의 구조 및 전개 불안정

P6 표현의 부정확성 및 부적절성

P7 출처 표기 누락 또는 불충분

P8 감정 및 개인 경험 중심 서술

P9 과제 목적 및 장르 인식 부족
글A는 문제 P1+P2+P9가 결합된 ‘논증 부재형’의 글이었다. 이 글은 놀이터 안전사고 문제의 원인과 해결 방안을 설명한 뒤 글의 마지막에 ‘창의적이고 도전적인 놀이터를 만들어야 한다.’는 진술 수준의 주장을 간략히 덧붙이는 방식으로 구성되었다. 글의 구조나 표현에는 문제가 없으나, 과제가 필자의 주장을 타당한 이유와 근거를 들어 논증하는 글을 쓰는 것임을 간과하여 과제 장르에 부합하지 않는 형식으로 글을 쓴 사례다.
글B는 문제 P3+P4+P5+P6+P7이 결합된 ‘외형적으로만 그럴듯한 필자 생각 부재형’이었다. 실업급여의 폐지를 주장한 이 글은 외형적으로는 논증문의 형식을 취하고 있지만, 자신만의 논리 전개 없이 자료를 단순 요약한 내용이 글의 2/3 이상을 차지한다. 또한 단락 간 내용 연결성이 약하고, 인용의 범위와 출처가 불분명하며, AI가 제시한 잘못된 정보(존재하지 않는 사실)를 출처 확인 없이 근거로 사용하는 오류를 보인다.
글C는 문제 P2+P6+P7+P8이 결합된 ‘논리⋅어조⋅출처 문제의 복합형’이었다. 동물원의 폐지를 주장한 이 글은 주장을 뒷받침하는 타당한 이유 대신 ‘우리는 철창 안 동물들의 슬픈 눈빛에 책임을 져야 한다.’는 식의 논리 비약적인 감정적 진술을 보인다. 또한 필자의 주장과 무관한 자료를 인용하고 그에 대한 출처 표기를 부정확하게 하는 등 복합적인 문제 양상을 드러낸다.

3.1.2. 교수자⋅동료⋅AI 피드백 자료 수집

세 편의 글에 대한 교수자⋅동료⋅AI 피드백은 다음과 같이 시행하여 그 결과를 분석 대상으로 삼았다. 먼저, 교수자 피드백은 대학 글쓰기 교수자 5인이 2025년 1월 15일~30일 사이에 개별적으로 수행했다. 교수자 5인은 모두 대학에서 글쓰기 교육을 10년 이상 담당해 온 전문가로, 연구자는 포함하지 않았다. 교수자들에게는 해당 글이 ‘시사적 이슈에 대해 대학생 필자가 자신의 주장을 1500자 내외로 논증하는 글을 작성한 것’이라는 설명과 함께 <표 2>의 ‘평가 기준표’를 제공했다. 교수자들에게는 ‘평가 기준표’를 참조하여 평소에 하던 방식으로 피드백을 수행해 달라고 요청하고, 피드백의 구체적인 방식에 대한 지침은 주지 않았다. 피드백 대상 글이 HWP 문서로 제공되었기에 교수자들은 전원 한글 프로그램을 사용하여 메모 및 총평 기술의 형태로 피드백을 작성했다.
<표 2>
논증적 글에 대한 평가 기준표
평가 범주 평가 기준
1. 주장의 명확성 필자의 주장이 명확하게 전달되는가

2. 이유의 충분성과 타당성 주장을 뒷받침하는 이유가 충분하고 타당하여 설득력이 있는가

3. 근거의 충분성과 신뢰성 이유를 뒷받침하는 근거가 충분하고 신뢰할 만한 것인가

4. 다른 입장에 대한 고려 필자의 주장과 다른 견해에 대한 고려가 구체적으로 이루어졌는가

5. 글 구성의 체계성 글 전체의 내용이 체계적으로 배열되었는가

6. 단락 구성의 적절성 단락이 하나의 소주제를 중심으로 적절하게 구성되었는가

7. 표현의 정확성과 적절성 문법적으로 정확하고, 공적인 논증문에 적합한 표현을 사용했는가

8. 쓰기 윤리 준수 여부 인용한 내용의 출처 표기를 윤리적으로 규범에 맞게 하였는가
다음으로, 동료 피드백은 서울 소재 A대학교에서 2024년 2학기에 글쓰기 강좌를 수강하는 대학생 36명이 수행했다. 해당 강좌에서는 수정하기 교육의 일환으로 교수자가 제공한 세 편의 논증적 글(A⋅B⋅C)에 피드백을 작성하는 활동이 이루어졌다. 학생들에게는 “’평가 기준표’를 참조하여 필자가 논증적 글을 수정할 때 가장 도움이 되는 피드백을 자유롭게 작성하라.”는 지침만을 주고, 피드백의 방식에 대해서는 역시 조언하지 않았다. 학생들도 전원 한글 프로그램을 사용하여 피드백을 작성했다. 총 108편의 동료 피드백 자료가 수집된 후, 학생들의 해당 학기 글쓰기 과제 점수 총점을 기준으로 이들을 쓰기 수준 상위⋅중위⋅하위 집단으로 분류했다. 이후 각 집단에서 글 3편에 대한 피드백을 대표성과 비교 가능성을 고려하여 선정하고, 총 18편을 분석 대상으로 삼았다.
마지막으로, AI 피드백은 2025년 1월 15일에 연구자가 대표적인 생성형 AI 도구인 Chat GPT-4-turbo 모델2)을 사용하여 도출했다. 연구자가 입력한 프롬프트는 다음과 같았다. “대학생 필자가 시사적인 이슈에 대해 자신의 주장을 논증한 글을 읽고, 이에 대해 피드백을 제공하는 전문적이고 유능한 작문 튜터 역할을 수행하세요. 다음은 피드백을 제공할 때 사용할 ‘평가 기준표’입니다. 이 ‘평가 기준표’를 기반으로, 비판적이고 구체적이며 건설적인 피드백을 제공하세요. 대학생 필자의 글은 역할과 임무를 이해했다고 답변하면 제시하겠습니다. (’평가 기준표’ 제시)”
AI 피드백은 생성형 AI 답변의 가변성을 감안하여 한 편의 글에 대해 3회씩 출력했다. 이후, 자료 분석 단계에서는 각 응답을 독립된 피드백으로 분석했으나, 연구 결과의 해석 단계에서는 이를 하나의 피드백 주체가 생성할 수 있는 의사결정 범위의 다양성으로 간주하여 AI 피드백의 전반적인 경향성을 중심으로 논의했다.

3.2. 자료 분석 절차 및 방법

교수자⋅동료⋅AI가 세 편의 글에 대해 작성한 피드백은 다음 절차 및 방법을 통해 분석했다.
첫째, 피드백을 분석 단위로 나누어 개수를 산정했다. 피드백 개수는 선행 연구(이윤빈⋅정희모, 2014; 이윤빈, 2016)의 방법에 따라, 의미 단위를 기준으로 산정했다. 이때 의미 단위란 필자의 글에 대해 하나의 제언이나 판단을 제공하는 구나 절, 문장을 뜻한다. 대체로 하나의 구나 절, 문장이 하나의 피드백으로 산정되었으나, 연속되는 구, 절, 문장이 동일한 의미를 전달하는 경우에는 이들을 묶어 하나의 피드백으로 산정했다.
둘째, 피드백의 유형을 분류했다. 분류는 선행 연구(이윤빈⋅정희모, 2014; 서영진⋅전은주, 2012)의 방법을 참조하여 두 가지 측면에서 수행했다. 하나는 피드백이 언급하는 글의 문제가 무엇인가를 기준으로 한 ‘대상 영역별’ 분류로, 교수자⋅동료⋅AI가 피드백 시 사용한 ‘평가 기준표’의 항목에 ‘기타’ 항목을 더해 <표 3>과 같이 구성했다. 다른 하나는 피드백 내용이 제공되는 방식이 어떠한가를 기준으로 한 ‘내용 유형별’ 분류로, 서영진⋅전은주(2012)에서 사용한 분류 항목을 연구자가 수정⋅보완3)하여 <표 4>와 같이 구성했다.
<표 3>
피드백의 대상 영역별 분류 기준표
대상 영역 양상
1. 주장의 명확성 필자의 주장이 명확하게 전달되는지 살핌

2. 이유의 충분성과 타당성 주장을 뒷받침하는 이유가 충분하고 타당하여 설득력이 있는지 살핌

3. 근거의 충분성과 신뢰성 이유를 뒷받침하는 근거가 충분하고 신뢰할 만한 것인지 살핌

4. 다른 입장에 대한 고려 필자의 주장과 다른 견해에 대한 고려가 구체적으로 이루어졌는지 살핌

5. 글 구성의 체계성 글 전체의 내용이 체계적으로 배열되었는지 살핌

6. 단락 구성의 적절성 단락이 하나의 소주제를 중심으로 적절하게 구성되었는지 살핌

7. 표현의 정확성과 적절성 문법적으로 정확하고, 공적인 논증문에 적합한 표현을 사용했는지 살핌

8. 쓰기 윤리 준수 여부 인용한 내용의 출처 표기를 윤리적으로 규범에 맞게 하였는지 살핌

9. 기타 위 항목을 제외한 대상에 대한 언급(제목, 편집, 쓰기 태도 등)
<표 4>
피드백의 내용 유형별 분류 기준표
내용 유형 양상 예시
1. 단순 소감형 글에 대한 주관적 인상이나 소감을 제시하고, 판단 및 조언은 하지 않음 “재미있게 읽었어요.”, “글 정말 잘 쓰시네요.”

2. 오류 지적형 문법, 표기, 사실 오류 등 표면적 오류를 단순히 지적 또는 교정함 “‘로써’ → ‘로서’”, “호랑이는 고양잇과 동물입니다.”

3. 진단 논평형 잘된 점이나 고칠 점에 대한 판단을 설명과 함께 기술하되 수정 방향은 언급하지 않음 “이유로 제시한 내용이 주장을 직접 뒷받침한다고 볼 수 없어 설득력이 떨어집니다.”

4. 사고 촉진형 질문 또는 간접적 제안을 통해 필자의 비판적 사고와 자기 점검을 유도함 “청소년 범죄를 모두 개인 책임으로 돌릴 수 있을까요?”, “이 부분은 반대 독자의 입장에서 점검해 보면 좋겠어요.”

5. 대안 제시형 고칠 점에 대해 구체적인 수정 방향을 제시하여 글에 반영할 수 있게 함 “이 문단은 서론 다음으로 옮기세요.”, “‘공정성’보다는 ‘효율성’의 관점에서 접근하는 것이 더 타당해요.”

6. 정보 제공형 배경지식, 통계자료, 쓰기 전략 등 글을 보완하는 정보를 제공함 “2024년 통계청 자료에 따르면 청년 실업률은 7.2%입니다.”, “주장 → 이유 → 근거 순으로 전개하면 체계적으로 논리를 전달할 수 있어요.”
셋째, 피드백의 타당도를 평정했다. 선행 연구들에서는 타당도를 피드백의 내용에 대해 전문가들이 적합성을 판단한 수치로 규정하고, 이를 5점 척도(5: 매우 타당함, 4: 타당함, 3: 보통임, 2: 별로 타당하지 않음, 1: 전혀 타당하지 않음)로 평정하여 3.5 이상의 점수를 받은 피드백에 대해 타당하다고 평가했는데, 이 연구도 동일한 규정을 따랐다. 타당도 평정은 대학에서 15년 이상 글쓰기 교육을 담당한 전문가 3인이 담당했으며, 연구자는 참여하지 않았다. 이들은 사전 회의를 통해 교수자⋅동료⋅AI의 피드백 각 1편을 평정한 결과를 비교하여 기준을 조율한 뒤 본 평정에 임했다. 평정자 간 신뢰도는 Cronbach α=.831(신뢰도 기준 ≥ .70)로 높은 일관성을 보였다.
마지막으로, 이상의 분석 결과를 토대로 주체별 피드백의 전반적인 차이를 비교 분석했다. 이 과정에서는 각 주체별 피드백의 빈도와 타당도, 주체별 피드백이 보인 장점과 한계, 교육적 활용 가능성에 주목했다.

4. 연구 결과

4.1. 교수자⋅동료⋅AI 피드백의 개수 및 전반적 타당도

교수자 5인, 동료 9인, AI(편당 3회 시도)가 세 편의 논증적 글에 제공한 총 피드백 수, 편당 평균 피드백 수, 피드백 타당도 평균, 타당한 것으로 판단된 피드백(평점 3.5 이상) 비율을 정리하면 <표 5>와 같다.
<표 5>
주체별 피드백 개수 및 타당도
피드백 주체 총 피드백 수 편당 평균 수 타당도 평균 타당 피드백 비율
교수자(n=15) 198 13.2 4.69 93.1%

동료(n=18) 234 13.0 3.75 59.8%

AI(n=9) 267 29.7 3.85 63.7%
먼저, 주체별 피드백의 총 개수를 피드백 편수(n)로 나눈 편당 평균 피드백 수는 ‘AI(29.7개) > 교수자(13.2개) > 동료(13.0개)’ 순으로, AI가 교수자나 동료보다 2배 이상 많은 피드백을 제공했다. 이는 피드백 수행 시 시간과 인지적 노력을 들여야 하는 인간 주체와 달리, AI는 ‘평가 기준표’의 각 항목에 기계적으로 대응하여 항목별로 세분화된 피드백을 빠르게 생성할 수 있었기 때문이다. 인간 주체는 글에서 탐지된 문제점에 대해 선택적으로 피드백을 했으나, AI는 ‘평가 기준표’의 모든 항목에 대해 장점과 문제점, 수정 제안을 각각 분리하여 정형화된 피드백을 제공했다. 즉, AI 피드백의 양이 많은 것은 학생의 글을 맥락 속에서 해석한 결과라기보다는, 입력된 프롬프트(’평가 기준표를 기반으로 비판적⋅구체적⋅건설적 피드백을 제공하라.’)에 대응한 자동화된 출력 결과라고 할 수 있다.
다음으로, 주체별 피드백의 타당도 평균은 ‘교수자(4.69) > AI(3.85) > 동료(3.75)’ 순으로, 타당 피드백의 비율은 ‘교수자(93.1%) > AI(63.7%) > 동료(59.8%)’ 순으로 높게 나타났다. 세 주체의 피드백은 모두 타당도의 기준(3.5)를 넘어 ‘전반적으로 타당하다’고 평가되었으나, 교수자 피드백의 타당성이 AI나 동료 피드백에 비해 월등히 높게 나타난 것이다. 실제로 AI 피드백이 항목별 형식적 대응에, 동료 피드백이 정서적 반응에 머무르는 경우가 많았던 반면, 교수자는 전문성을 바탕으로 각 대상 글의 고유한 문제에 적확하게 대응하며 글의 실제적 개선에 기여하는 피드백을 제공했다. 예컨대 과제가 요구한 논증적 글이 아닌 정보 중심의 설명문에 가까웠던 글A에 대해, AI와 동료는 근본적 문제를 인지하지 못하고 해당 장르를 인정한 상태에서 세부적 피드백을 제공했다. 반면, 교수자는 해당 글이 과제가 요구한 장르가 아니라는 근본적 문제를 언급한 뒤 논증 구조로의 전면 재구성을 유도하는 일련의 피드백을 제공한 유일한 주체였다.
한편, AI와 동료의 피드백은 타당도 면에서는 큰 차이를 보이지 않았으나, 구체적 양상에서는 명확한 차이를 드러냈다. AI 피드백의 경우, ‘주장의 명확성’이나 ‘구성의 체계성과 적절성’, ‘표현의 정확성’과 같이 텍스트 표면에 드러난 구조나 표현에 대해 일정 수준 이상 타당하게 반응했다. 예를 들어, 외형적으로는 그럴 듯하나 자료의 짜깁기에 가까운 글 B에 대해 AI는 단락 간 내용 연결성이나 표현상의 문제를 비교적 정확하게 지적했다(kjge-2025-19-3-19i1.jpg “각 단락이 개별 사례를 중심으로 나열되어 있어 글 전체의 흐름이 단절되는 인상을 줍니다.”, “’실업급여는 국민에게 좋지 않은 영향을 줄 수 있다’는 표현은 ‘좋지 않은 영향’이 지나치게 포괄적이어서 의미가 불분명합니다.”). 그러나 해당 글이 필자의 견해를 중심으로 구성되지 않은 점이나, 필자가 AI로부터 얻은 잘못된 정보(’스웨덴은 2020년에 실업급여 제도를 완전히 폐지했다.’는 거짓 사례)를 근거로 사용한 문제는 언급하지 않았다. 이는 AI 피드백이 글의 구조나 표현 같은 형식적 문제에 대해서는 비교적 타당하게 판단하지만, 필자 관점의 명확성이나 정보의 진위 여부 같은 심층적인 내용 문제를 감지하는 데는 한계가 있음을 보여준다.
또한 동료 피드백의 경우, 평균 타당도는 AI 피드백과 유사한 수준이었으나 쓰기 수준 상위 집단과 하위 집단의 타당도 편차가 매우 크게 나타났다. 상위 집단의 타당도는 4.12로 AI 피드백의 타당도(3.85)보다 높았지만, 하위 집단의 타당도는 3.16으로 타당함의 기준인 3.5를 크게 밑돌았다. 예컨대 논리 비약적인 감정적 서술이 포함된 글C에 대해 상위 집단은 해당 문제를 정확히 지적(kjge-2025-19-3-19i1.jpg “’동물은 우리보다 약한 존재이기 때문에 우리는 그들을 지켜야 한다.’는 문장은 동물원 폐지라는 정책적 주장을 뒷받침하기에는 논리적 타당성이 부족함”)했지만, 하위 집단은 필자의 감정적 서술에 정서적 공감을 표현(kjge-2025-19-3-19i1.jpg “저도 어렸을 때 이런 경험이 있어서 조금 울컥했어요… ☺”)할 뿐 글의 논리에 대한 분석은 시도하지 않았다. 이는 동료 피드백의 타당도가 피드백 제공자의 쓰기 수준에 따라 크게 달라질 수 있다는 선행 연구들(이윤빈⋅정희모, 2014; 이윤빈, 2016)의 결과와도 일치한다.
이처럼 교수자, 동료, AI의 피드백은 평가 기준 항목에 대한 반응 방식, 글의 심층적인 문제에 대한 인지 여부, 피드백 내용의 구체성과 타당도 면에서 전반적인 차이를 드러냈다. 이러한 차이는 피드백의 대상 영역 및 내용 유형별 양상에서 보다 구체적으로 확인된다.

4.2. 교수자⋅동료⋅AI 피드백의 대상 영역별 특성 및 타당도

교수자⋅동료⋅AI의 대상 영역별 피드백 빈도(괄호 안: 1편 당 빈도 평균) 및 타당도 평균을 정리하면 <표 6>과 같다. 이를 통해, 각 주체가 주로 글의 어떤 문제에 주목하여 피드백을 제공했으며 그 타당도는 어떠한지 확인할 수 있다.
<표 6>
세 주체의 대상 영역별 피드백 수 및 타당도
평가 영역 교수자 빈도 교수자 타당도 동료 빈도 동료 타당도 AI 빈도 AI 타당도
1. 주장의 명확성 19(1.3) 4.70 33(1.8) 4.05 31(3.4) 4.00

2. 이유의 충분성과 타당성 28(1.9) 4.73 35(1.9) 3.70 36(4.0) 3.60

3. 근거의 충분성과 신뢰성 27(1.8) 4.71 32(1.8) 3.68 35(3.9) 3.62

4. 다른 입장에 대한 고려 22(1.5) 4.66 14(0.8) 3.45 30(3.3) 3.70

5. 글 구성의 체계성 22(1.5) 4.68 15(0.8) 3.52 34(3.8) 4.05

6. 단락 구성의 적절성 20(1.3) 4.67 26(1.4) 3.90 34(3.8) 4.00

7. 표현의 정확성과 적절성 29(1.9) 4.69 43(2.4) 3.95 37(4.1) 4.20

8. 쓰기 윤리 준수 여부 18(1.2) 4.65 13(0.7) 3.35 29(3.2) 3.65

9. 기타 13(0.9) 4.70 23(1.3) 3.50 1(0.1) 2.80
먼저, 영역별 피드백의 분포 면에서는 ‘평가 기준표’의 각 항목에 모두 반응하는 방식으로 피드백을 한 AI가 기준표에 부재한 항목인 ‘기타’를 제외한 모든 영역에서 고르게 많은 피드백을 제공(편당 3.2~4.1개)했다. 교수자 또한 AI보다 피드백의 절대 수는 적었으나 1~8영역 모두에서 편당 1.2~1.9개의 피드백을 고루 제공했다. 반면 동료의 경우, 영역별 피드백 빈도의 편차가 크게(0.7~2.4개) 나타났는데, 표현 영역의 피드백 빈도가 높은(2.4개) 반면 ‘다른 입장에 대한 고려’, ‘글 구성의 체계성’, ‘쓰기 윤리 준수 여부’에 대한 피드백 빈도가 편당 0.7~0.8개로 낮았다.
이러한 현상은 교수자와 동료의 피드백 전문성 및 피드백 태도의 차이에 기인한 것으로 해석된다. 즉, 교수자는 장르 인식이 명확하고, 평가 기준표의 각 항목이 글에서 어떻게 구현되어야 하는가에 대한 명확한 표상을 가지고 있다. 그래서 이를 기반으로 학생 글에 나타나지 않았으나 있어야 할 요소(kjge-2025-19-3-19i1.jpg 다른 입장에 대한 고려)에 대해 언급하거나, 인용의 적절성을 판단하거나, 글 전체의 구조를 재구성하는 교육적 조언4)을 적극적으로 제공했다. 반면 상대적으로 전문성이 부족한 동료는 글에 명시적으로 드러난 요소를 중심으로만 피드백하고, ‘있어야 할 요소’에 대한 선제적 피드백, 표절 가능성의 언급, 글 전체 구조를 조망한 거시적 조언 시도는 잘 하지 않았다. 이와 같은 양상은 특히 하위 수준 동료에게서 뚜렷이 나타나, 이들의 4, 5영역에 대한 피드백 수는 모두 편당 0.2개 이하였고, 8영역에 대한 피드백은 전무했다.
한편, ‘평가 기준표’에 존재하지 않았던 ‘기타’ 항목에 대해 AI는 1개의 비정형적 피드백5)을 제외하면 언급이 없었으나, 교수자와 동료는 각각 편당 0.9개, 1.3개로 상대적으로 많은 피드백을 작성했다. 이때 교수자 피드백은 전체 13개 중 11개의 피드백(84.6%)이 ‘글의 장르 적합성’과 ‘제목의 적절성’ 등 ‘평가 기준표’에는 없으나 글의 질을 좌우하는 요소에 대한 것이었고, ‘편집 관련 사항’도 언급(kjge-2025-19-3-19i1.jpg “한글 문서는 좌측 정렬이 아닌 양쪽 정렬로 편집하세요.”)했다. 반면 동료 피드백의 경우, 23개 피드백 중 17개(73.9%)가 글의 내용에 정서적으로 공감(kjge-2025-19-3-19i1.jpg “맞아요… 완전 너무 공감합니다!”)하거나 필자에 대해 칭찬(kjge-2025-19-3-19i1.jpg “글 진짜 잘 쓰시네요.”)하는 등 글의 질 향상보다는 정서적 상호작용을 목적으로 한 것이었다.
다음으로, 영역별 피드백의 타당도 면에서는 교수자 피드백이 모든 영역에서 4.65~4.73 수준으로 매우 높은 수치를 보였다. 한편, AI 피드백은 ‘기타’를 제외한 모든 영역에서 ‘타당함’의 기준(3.5)을 넘기기는 했으나, ‘이유의 충분성과 타당성’, ‘근거의 충분성과 신뢰성’, ‘다른 입장에 대한 고려’, ‘쓰기 윤리 준수 여부’에서 상대적으로 낮은 타당도(3.60~3.70)를 나타냈다.
세부적으로, AI는 ‘이유의 충분성’과 ‘근거의 충분성’은 비교적 타당하게 지적했지만, ‘이유의 타당성’과 ‘근거의 신뢰성’에 대한 판단에는 매우 취약했다. 즉, AI는 이유나 근거의 존재 유무나 개수와 같은 정량적 판단은 정확하게 했으나(kjge-2025-19-3-19i1.jpg “주장에 대한 이유가 존재하지 않습니다.”), 이유 자체의 논리성과 맥락 적합성, 일반화 가능성에 대한 판단, 근거의 대표성이나 진위 여부, 출처 적절성에 대한 판단은 원활히 수행하지 못했다. 예컨대 글C에는 “인간은 자연에서 떨어져 살 수 없는 존재이기 때문에 동물원은 사라져야 한다.”는 진술이 있었는데, 이는 인과관계가 불분명하고 타당성이 낮은 이유였다. 그러나 AI는 “자연과 인간의 관계를 언급하며 이유를 구체화하고 있습니다.”라고 평가하여, 이유의 논리적 타당성이나 맥락과의 부적합성을 인지하지 못하고 표면적 이유 제시에만 반응하는 양상을 보였다.
또한 AI는 ‘다른 입장에 대한 고려’나 ‘쓰기 윤리 준수 여부’에 대해서도 내용의 맥락을 판단하지 못한 채 형식적 요소를 중심으로 한 반응을 보였다. 예컨대 논증이 부재했던 글A에는 예상 반론에 대한 언급이 존재하지 않았으나, AI는 “이 글은 다양한 관점을 언급하며 균형 잡힌 시각을 제공합니다.”라고 평가했다. 이는 글에 나타난 단어 수준의 표현(“일각에서는…”)을 반론의 표지어로 오인한 결과로 판단된다. 또한 출처를 누락하거나 불충분하게 밝힌 글B에 대해서도 AI는 “자료를 인용하여 신뢰도를 높이고 있습니다.”라고 평가하여, 인용의 윤리적 적절성을 검토하지 못하는 양상을 보였다. 이처럼 AI는 글에 피드백 대상 항목이 존재하는지 여부는 비교적 정확히 판단했으나, 그 요소가 글의 맥락 속에서 실제로 어떻게 기능하는지 판단하는 데는 일정한 한계를 드러냈다.
한편, 동료 피드백은 전체적인 영역별 타당도의 편차는 크지 않았지만(3.35~4.05), 쓰기 수준에 따른 타당도 편차가 각 영역에서 명확하게 나타났다. 특히, ‘이유의 타당성’, ‘근거의 신뢰성’, ‘다른 입장에 대한 고려’와 같이 논리적 정합성을 심도 깊게 판단해야 하는 영역의 편차가 컸다. 상위 집단은 평균 타당도 4.0 이상을 기록한 반면, 하위 집단은 3.0~3.2 수준에 머물러 항목별로 최대 1.0에 가까운 편차를 보였다. 예를 들어, 실업급여와 관련된 자료를 단순 나열한 내용이 대부분인 글B에 대해, 상위 집단의 동료는 “자료가 많지만 이 자료들이 왜 주장을 뒷받침하는지 설명이 필요해요.”라며 자료와 주장 간의 논리적 연결 부족을 정확히 지적했다. 반면, 하위 집단의 동료는 “다양한 자료를 들어 설명해서 설득력이 높은 것 같아요.”라며 이유의 타당성을 비판적으로 검토하기보다는 자료 제시 여부 자체에만 주목하는 양상을 보였다.
이처럼 세 주체는 공통된 평가 기준에 따라 피드백을 제공했음에도 불구하고, 각 영역 기준에 대한 이해 수준과 적용 방식, 글의 맥락에 대한 총체적 시각의 유무, 판단의 정확성, 피드백의 초점과 표현 방식에서 뚜렷한 차이를 보였으며 이러한 차이는 피드백이 제시되는 내용 유형별 양상에서도 확인되었다.

4.3. 교수자⋅동료⋅AI 피드백의 내용 유형별 특성 및 타당도

교수자⋅동료⋅AI의 내용 유형별 피드백 빈도(괄호 안: 1편 당 빈도 평균) 및 타당도 평균을 정리하면 <표 7>과 같다. 이를 통해, 각 주체가 글의 문제 영역에 어떠한 방식으로 개입했으며, 그 타당도는 어떠한지 확인할 수 있다.
<표 7>
세 주체의 내용 유형별 피드백 수 및 타당도
평가 영역 교수자 빈도 교수자 타당도 동료 빈도 동료 타당도 AI 빈도 AI 타당도
1. 단순 소감형 10(0.7) 4.10 54(3.0) 3.47 2(0.2) 3.45

2. 오류 지적형 36(2.4) 4.88 51(2.8) 3.82 28(3.1) 4.39

3. 진단 논평형 56(3.7) 4.75 48(2.7) 3.79 97(10.8) 3.85

4. 사고 촉진형 40(2.7) 4.80 31(1.7) 3.73 6(0.7) 3.60

5. 대안 제시형 44(2.9) 4.82 36(2.0) 3.75 87(9.7) 3.82

6. 정보 제공형 12(0.8) 4.70 14(0.8) 3.68 47(5.2) 3.53
먼저, 유형별 피드백의 분포를 보면, 세 주체가 자주 사용하는 피드백 유형에 뚜렷한 차이가 있음을 볼 수 있다. 교수자의 피드백은 ‘진단 논평형(편당 3.7개)’이 가장 많았고, 이어서 ‘대안 제시형(2.9개)’과 ‘사고 촉진형(2.7개)’이 유사한 비중으로 많이 나타났다. 이는 교수자 피드백이 먼저 학생 글의 문제를 진단하여 설명하고, 이와 관련하여 질문 또는 간접적 제안을 하며 필자의 능동적 점검을 유도하거나, 혹은 구체적인 수정 방향을 제안하는 방식의 결합 구조(각주4 참조)를 자주 사용했기 때문이다. 이는 ‘오류 지적형’ 피드백이 교수자에게서 가장 낮게(2.4개) 나타난 현상과도 무관하지 않다. 교수자는 피드백을 단순한 교정이나 평가가 아니라, 학습자의 쓰기 능력 향상을 위한 교육적 개입의 수단으로 활용하는 것으로 보인다.
한편 AI의 피드백은 ‘표현의 정확성과 적절성’ 영역에서 ‘오류 지적형’ 피드백이 일부 발생(3.1)개 한 것을 제외하면, ‘진단 논평형(10.8개)’과 ‘대안 제시형(9.7개)’, ‘정보 제공형(5.2개)’의 결합이 주류를 이루었다. 이는 AI가 ‘평가 기준표’의 모든 항목에 대응하여 장점과 문제점을 진단하고 수정 제안을 제시하는 가운데, 필요시 보완적인 정보와 전략을 덧붙이는 정형화된 구조의 피드백을 반복적으로 생성했기 때문이다. 주목할 점은 이러한 결합 구조가 형식적으로는 교수자의 피드백과 유사하나, 글의 맥락에 대한 해석이나 조언의 구체성 면에서 질적으로 뚜렷한 차이를 보인다는 점이다. 예컨대 “이 표현은 다소 추상적이어서 독자가 의미를 정확히 파악하기 어렵습니다. 보다 구체적인 단어로 수정해 보세요. 명료한 표현은 설득력 있는 글쓰기에 도움이 됩니다.”라는 피드백은 진단, 수정 제안, 전략 안내를 포함하고 있지만, 실제로 어떤 단어를 어떻게 바꿔야 하는지에 대한 구체적 맥락 분석이나 실행 가능한 지침은 찾을 수 없다.
동료 피드백의 경우, ‘단순 소감형(3.0개)’과 ‘오류 지적형(2.8개)’의 빈도가 가장 높았고, ‘진단 논평형(2.7개)’이 뒤를 이었다. 이는 동료가 글의 구조적 문제나 논리 전개상의 결함보다는 정서적 인상이나 표면적 오류에 주목하는 경향이 강하다는 점을 보여준다. 다만, ‘단순 소감형’ 피드백의 경우 글의 질을 제고하는 효과는 제한적이나, 필자와의 수평적 관계를 바탕으로 한 정서적 지지(에 “글 너무 잘 쓰셔서 부러웠어요.”)가 필자의 쓰기 효능감을 높이는 효과가 있을 것으로 판단되었다. 한편 ‘진단 논평형’의 경우에는 상위 집단과 하위 집단의 피드백이 명확히 구분되었는데, 상위 동료의 경우에는 교수자와 유사하게 ‘진단 논평형’과 ‘대안 제시형’의 결합 구조로 피드백을 구성한 경우가 자주 관찰되었다(결합형 피드백 편당 2.3개). 반면, 중⋅하위 동료의 피드백은 “전체적으로 이유가 약한 것 같고 주장을 뒷받침하기에는 설득력이 좀 부족해 보여요.”와 같이, 문제에 대한 판단은 있지만 그 원인과 맥락에 대한 해석은 부재하며, 수정 제안과도 결합되지 않는 경향을 보였다.
다음으로, 유형별 피드백의 타당도 면에서는 교수자 피드백이 ‘단순 소감형’을 제외한 모든 유형에서 매우 높은 타당도(4.70~4.88)를 보였다. 반면, AI 피드백은 ‘단순 소감형’과 ‘오류 지적형’을 제외하면 모두 3점대 중후반의 타당도에 머물렀고, 특히 ‘정보 제공형(3.53)’은 피드백의 빈도가 높은 데도(편당 5.2개) 타당도가 기준점(3.5)을 간신히 상회하는 수준으로 낮았다. 이는 AI가 글의 중심 논점이나 맥락에 부합하지 않는 정보를 제공하는 경우가 자주 발생했기 때문이다. 예를 들어, 실업급여의 폐지를 주장한 글B에 대해 AI는 “2024년 청년 실업률은 7.2%입니다. 이 통계를 활용하면 주장의 설득력을 높일 수 있습니다.”라는 피드백을 제공했다. 그러나 글B는 실업급여 제도의 남용 문제를 주로 다루고 있어, 청년 실업률은 논지와 직접적 관련이 없었다. 이처럼 AI는 표면적인 키워드 연관성을 바탕으로 내용을 생성하는 경향이 강해, 타당도가 낮은 논점 이탈형 정보를 자주 제공했다.
한편, 동료 피드백의 유형별 타당도 편차는 3.47~3.82로 크지 않았으나, 동료의 쓰기 수준에 따른 타당도 차이가 여기에서도 명확히 확인되었다. ‘진단 논평형’, ‘사고 촉진형’, ‘대안 제시형’과 같이 고차적인 사고를 요구하는 피드백 유형에서 집단 간 타당도 차이가 크게 나타났다. ‘대안 제시형’의 경우 상위 집단은 평균 4.17의 타당도를 보인 반면, 하위 집단은 3.20에 그쳐 1점에 가까운 차이를 보였고, ‘사고 촉진형’에서도 상위 집단은 4.19, 하위 집단은 3.24로 유사한 격차를 보였다. 예컨대 글C에 대해 상위 집단의 동료는 “동물원 폐지를 주장하는 글이지만, 반대 입장에서 보면 동물원이 멸종 위기 동물을 보존하고 교육적 가치를 지닌다고 할 수 있지 않을까요?”와 같이 필자의 비판적 사고를 촉진하는 피드백을 제공했다. 반면 하위 집단의 동료는 “혹시 동물도 인간과 함께 있기를 원하지 않을까요?”라는 질문을 제시했는데, 이는 글의 맥락과 무관한 정서적 추측에 가까워 타당도가 낮게 평가되었다.
이처럼 세 주체의 피드백은 자주 사용하는 피드백의 방식과 타당도 면에서 뚜렷한 차이를 보였다. 교수자와 상위 동료는 글의 문제를 진단하고 해결을 유도하는 타당도 높은 복합적 피드백을 주로 작성한 반면, AI와 하위 동료는 글의 표면적 특성에 집중하거나 정서적 반응에 치우친 피드백을 자주 제공하는 한계를 보였다. 향후 대학 글쓰기 교육에서 피드백을 효과적으로 활용하기 위해서는 이러한 주체별 피드백의 특성과 타당도 차이가 고려되어야 한다.

5. 결론 및 제언

5.1. 요약

이 연구는 대학 글쓰기 교육의 세 피드백 주체(교수자⋅동료⋅AI)가 제공하는 피드백의 특성과 타당도를 분석하여, 주체별 피드백의 효과를 종합적으로 비교하기 위해 기획되었다. 특히, 대학생의 논증적 글에 대해 각 주체가 제공한 피드백을 대상 영역별⋅내용 유형별로 분류하여 강점과 한계를 확인함으로써, 향후 대학 글쓰기 교육에서 주체별 피드백을 활용할 수 있는 교육적 방향성을 모색해 보고자 했다.
주체별 피드백의 강점과 한계를 정리하면 다음과 같다. 첫째, 교수자 피드백은 전문성을 바탕으로 각 대상 글의 고유한 문제에 적확하게 대응하며 글의 실제적 개선에 기여했고, 동료⋅AI 피드백에 비해 월등히 높은 타당도를 보였다. 특히 교수자들은 단일 영역에 국한된 단편적 조언이 아닌, 글의 장르 적합성과 전체 구성, 내용적 요소 등을 통합적으로 연결한 피드백을 제공하는 유일한 주체였으며, 피드백을 학습자의 쓰기 능력 향상을 위한 교육적 개입의 수단으로 활용했다. 그러나 교수자 피드백은 개별 학생의 글에 심층적으로 개입하기에 상당한 시간과 에너지가 필요하므로, 담당 학생 수가 많은 현실 여건에서는 모든 글에 일관되게 제공하기 어렵다는 한계를 지닌다.
둘째, 동료 피드백은 학습자 간의 수평적 관계를 기반으로 정서적 지지를 포함하고 적용 가능성이 높은 실용적 조언을 제공하는 경향을 보였다. 그러나 글에 명시적으로 드러난 요소를 중심으로 피드백하고, ‘있어야 할 요소’에 대한 선제적 피드백이나 글 전체를 아우르는 통합적 피드백은 거의 시도하지 않았다. 또한 쓰기 수준에 따라 피드백의 양상과 타당도가 크게 달라져, 상위 집단의 피드백은 교수자 피드백 다음으로 타당도가 높았으나 하위 집단의 피드백은 ‘타당함’의 기준(3.5)을 크게 밑돌았다.
셋째, AI 피드백은 ‘평가 기준표’의 각 항목에 대응하는 방식으로 정형화된 조언을 제공했고, 즉시성 및 양적 풍부성 면에서 교수자⋅동료에 비해 월등했다. 또한 글의 구조나 표현, 이유나 근거의 충분성(존재 유무 및 개수)과 같은 글의 표면적 요소에 대한 피드백 타당도가 높았다. 그러나 이유의 타당성이나 근거의 신뢰성과 같은 심층적인 내용 판단에는 취약했고, 글의 형식적 요소에 반응하는 경향으로 맥락과 무관한 정보나 피상적 조언을 제공하는 양상이 자주 나타났다. 그래서 표면적으로는 교수자 피드백과 유사한 결합 구조(문제 진단-수정 제안)로 구성되었으나, 판단의 정밀성과 조언의 실질성 면에서는 일정한 한계를 보였다.

5.2. 대학 글쓰기 교육에서 주체별 피드백의 교육적 활용 방안에 대한 제언

이상의 결과를 토대로, 앞으로의 대학 글쓰기 교육에서 교수자⋅동료⋅AI 피드백의 활용 방안에 대해 제언하면 다음과 같다.
첫째, 교수자 피드백은 이를 전(全)학생의 모든 과제에 대해 제공할 수 없을 경우, 교육적 효과가 높은 시점과 방식을 전략적으로 채택하여 시행하는 것이 효과적일 것으로 보인다. 예컨대 수업 중 여러 글에 공통적으로 나타나는 문제들을 소개하고 해결 방안을 제시하는 ‘대표 사례 기반 피드백’, 학생이 자신의 글에서 점검받고 싶은 문제를 사전에 제시하고 교수자가 해당 항목에 집중하여 조언하는 ‘사전 질문 기반 피드백’, 글의 형식적 요소에 대한 동료⋅AI 피드백을 먼저 시행한 뒤 교수자는 글의 심층 요소를 중심으로 최종 점검 및 보완 조언을 수행하는 ‘사후 통합적 피드백’ 방안 등을 고려할 수 있다.
둘째, 동료 피드백은 피드백 제공자의 쓰기 수준에 따른 편차가 큰 만큼 피드백의 질을 상향 평준화할 수 있는 방안을 마련하는 것이 관건이다. 이를 위해, 동료 피드백 수행 전 학생들에게 샘플 글을 제시하고 피드백 제공 실습을 한 뒤 해당 글에 대한 모범적인 피드백 사례를 확인⋅분석하는 ‘피드백 훈련 워크숍’을 시행할 수 있으며, 이는 교수자의 ‘대표 사례 기반 피드백’과 연계하는 것도 가능하다. 또한 동료 피드백 시행 시 필수 항목(kjge-2025-19-3-19i1.jpg 주장의 명확성, 근거의 유무 확인 등)과 선택형 심화 항목(논증의 타당성 점검, 글의 재구성 전략 제안 등)을 포함한 ‘혼합형 점검 매뉴얼’을 제공하고, 학습자가 자신의 쓰기 수준에 따라 능동적으로 수행 범위를 조절하도록 유도할 수도 있다. 이는 수행 방식을 자율화하여 쓰기 수준에 따른 차별을 방지하면서도, 심화 피드백을 통해 상위 동료의 튜터링 효과를 수업 내에서 자연스럽게 극대화할 수 있다.
셋째, AI 피드백은 글의 표면적 요소에 대해 일정 수준 이상 타당한 피드백을 제공하고 즉각적⋅반복적으로 피드백을 제공할 수 있으므로, 글쓰기 과정 및 초기 수정 단계의 점검 도구로 활용할 수 있다. 예를 들어, 교수자가 글의 구조나 표현, 이유나 근거의 충분성 등 AI로부터 타당도 높은 피드백을 받을 수 있는 요소를 점검하게 하는 프롬프트를 제공하고, 학습자가 이를 활용하여 초고에 대한 피드백을 받아 수정하게 할 수 있다. 또한 이 과정에서 ‘AI 피드백에 대한 점검 활동’을 실시하여, 학습자가 AI 피드백의 타당도를 평가하고 수용 여부를 결정하게 하는 것도 가능하다. 이러한 활동을 통해 학습자는 AI 피드백의 강점과 한계가 무엇인지 이해하고, AI에 대한 무비판적 의존을 지양하는 방식의 활용을 계획할 수 있다.
한편, 이상의 내용을 토대로 대학 글쓰기 교육에서 세 주체의 피드백을 상호 보완적으로 활용하는 다양한 교육적 방안을 모색해 볼 수 있다.
먼저, 피드백의 목적에 따라 피드백 절차를 ‘표면 점검-내용 점검-심층 점검’의 세 단계로 구분하고, 각 단계에 적합한 주체가 순차적으로 피드백을 제공하는 <주체별 단계적 피드백 방안>을 도입할 수 있다. 첫 단계에서는 초고 작성 직후 AI로부터 표현, 구조, 내용 항목의 유무와 같이 글의 표면적 요소에 대한 점검을 받는다. 이때 교수자가 설계한 프롬프트를 활용하여 피드백 타당도를 더욱 제고하는 것도 가능하다. 두 번째 단계에서는 ‘혼합형 점검 매뉴얼’을 사용하여 내용 중심의 동료 피드백을 수행한다. 필수 항목에는 주장의 명확성, 근거의 신뢰성과 같이 상대적으로 점검이 용이한 사항을, 심화 항목에는 이유의 타당성, 다른 입장에 대한 고려와 같이 점검 난이도가 높은 사항을 배치하여, 동료의 쓰기 수준에 따라 적정 범위의 피드백을 제공하도록 유도할 수 있다. 또한 사전에 ‘피드백 훈련 워크숍’을 실시하여, 글의 내용에 대한 모범적인 피드백 사례를 인지하고 피드백을 작성하게 하는 것이 권장된다. 세 번째 단계에서는 교수자가 ‘사전 질문 기반 피드백’이나 ‘사후 통합적 피드백’을 활용하여 전체 논증의 타당성과 같은 심층적 요소에 대해 조언하고, 글의 전반적인 완성도를 점검한다. 이 방안은 피드백 주체의 강점에 따라 단계적으로 피드백을 제공하여 학습자의 쓰기 역량을 체계적으로 증진하면서도 교수자의 개입 부담을 경감할 수 있다.
다음으로, 학습자의 글에 대해 교수자⋅동료⋅AI의 피드백을 모두 제공하고, 학습자가 그 결과를 주체적으로 비교⋅분석하여 피드백 수용 여부를 결정하는 <주체별 피드백에 대한 비판적 성찰 활동>을 시행할 수 있다. 이 활동에서는 교수자⋅동료⋅AI가 동일한 평가 기준을 사용하여 피드백을 작성하고, 학습자는 세 주체로부터 받은 피드백을 항목별로 비교하며 자신이 수용할 피드백을 결정한다. 이때 학습자는 동일한 피드백은 신뢰의 근거로, 상이한 피드백은 타당도 비교의 대상으로 삼아 수용 여부를 스스로 판단하고, 그 이유를 ‘주체별 피드백 점검 시트’에 기록해야 한다. 이 과정에서 학습자는 각 피드백이 절대적으로 지켜야 할 지침이나 정답이 아닌, 비판적으로 검토하고 주체적으로 수용할 대상임을 체감하게 된다. 이 방안은 학습자가 다양한 피드백에 대해 능동적으로 판단하고 수용하는 과정을 통해, 글에 대한 주체적 시각을 기르는 데 기여한다.
대학 글쓰기 교육에서 교수자, 동료, AI 피드백은 각각의 특성을 고려하여 활용할 때 그 효과를 제고할 수 있다. 이 연구에서 제안한 피드백 활용 방안은 그 실천적 사례로, 이를 수업에 적용하여 효과를 검토하는 작업은 후속 연구를 통해 수행하고자 한다. 앞으로 대학 글쓰기 교육에서 주체별 피드백의 양상 및 활용 방안에 대한 논의가 보다 풍요롭게 이루어지기를 기대한다.

Notes

1) 학생 글 3편은 2023년 2학기와 2024년 1학기에 <대학 글쓰기> 강좌를 수강한 학생들이 동일한 과제(자신이 관심 있는 시사적 이슈를 선정하여 이에 대한 필자의 주장을 논증하는 1500자 분량의 글쓰기)에 대해 작성한 글 153편을 검토하여, 이중 <표 1>의 전형적 문제들을 특징적으로 포함하고 있는 것으로 판단되는 글을 연구자가 선정했다.

2) 2025년 1월 15일 기준 ChatGPT 무료 사용자는 GPT-4 계열 모델인 GPT-4-turbo(text only)를 제한된 횟수 내에서 사용할 수 있었다. 이 버전은 대체로 무료 이용자인 대학생들이 활용할 수 있는 가장 고성능의 최신 모델이라는 점에서 채택되었다.

3) 서영진⋅전은주(2012)의 분류는 단순 소감형, 오류 지적형, 논평형, 대안 제시형, 질문형의 5개 항목이었다. 이 연구는 교수자⋅동료⋅AI의 피드백 샘플에 대한 사전 분석을 통해 세 주체의 피드백 특성을 포괄하도록 이를 <표 4>의 6개 항목으로 수정⋅보완했다. ‘질문형’은 간접적 사고 유도를 포함하는 ‘사고 촉진형’으로 수정했고, AI 피드백에서 빈번하게 나타나는 외부 정보⋅개념⋅전략 제시 유형을 포착하기 위해 ‘정보 제공형’을 추가했다.

4) 예를 들어, 한 교수자는 논증 부재형 글A의 전면 재구성을 권하며 다음과 같이 피드백했다. “이 글은 필자의 주장을 이유, 근거, 예상 반론, 재반론 등을 통해 논리적으로 뒷받침하는 방식으로 작성되어야 합니다. 현재 이 글은 주장을 제시한 뒤 논증을 펼치기보다는 놀이터 안전 문제의 원인을 분석하고 가능한 해결 방안을 자료 인용을 통해 나열한 뒤 마지막에 필자의 견해(’창의적⋅도전적 놀이터를 만들어가야 한다’고 했으나 논리적 뒷받침 없음)를 덧붙이는 방식으로 작성되어, 논증문이라기보다는 정보 전달 글에 가깝습니다. 1단락의 마지막 문장을 좀더 논쟁적인 주장을 제시하는 것으로 교체하고, 2, 3단락의 소주제문을 이를 뒷받침하는 이유(예: ‘현재의 놀이기구가 이러저러한 점에서 아이들에게 위험하다.’)로 작성한 뒤, 이를 뒷받침하는 근거를 들어 단락을 구성해 주면 좋겠습니다. 4단락에서는 그에 대한 반대입장의 반론을 언급하고 그에 대해 재반론 함으로써 주장의 타당성을 높여주는 것도 좋습니다.” 이처럼 교수자 피드백은 특정 영역에 국한된 단편적 조언이 아닌, 글의 장르 적합성과 전체 구성, 내용적 요소 등을 통합적으로 연결한 조언을 제공한다는 점에서 동료나 AI의 피드백과 뚜렷이 구분되는 고도의 교육적 개입 양상을 보였다.

5) 비정형적 피드백은 “제목이 조금 더 구체적이면 글의 중심 내용이 잘 드러날 수 있습니다.”로, AI가 작성한 9편 중 1편에서만 ‘평가 기준표’에 없는 제목에 대한 피드백이 우발적으로 생성되었다. 이는 GPT가 입력 텍스트에서 앞부분에 위치한 정보나 문맥상 강조된 표현에 상대적으로 높은 주의를 기울이는 경향(attention concentration on initial token)이 있어, 제목 관련 사항이 평가 기준에 포함되지 않았음에도 예외적으로 출력에 반영된 것으로 판단된다(Vaswani et al., 2017; Brown et al., 2020).

참고문헌

An, H., Na. H., Ha. C., & Song, Y. (2025). A study on teachers'perceptions of writnig feedback in AI courseware. Korean Education, 142:183-214. http://doi.org/10.15734/koed..142.202503.183
[안효원, 나현수, 하채희, 송용창. (2025). AI코스웨어의 글쓰기 피드백에 대한 교사 인식 연구. 새국어교육, (142), 183-214. http://doi.org/10.15734/koed..142.202503.183].
crossref
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., & Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33:1877-1901. https://doi.org/10.48550/arXiv.2005.14165.
crossref
Cheong, Y. (2024). A study of the effectiveness of student perception-based AI feedback in college writing classes. Korean Journal of Education, 18(5), 159-173. http://doi.org/10.46392/kjge.2024.18.5.159
[정유남. (2024). 대학 글쓰기 수업에서 학생 인식 기반 AI 피드백의 효용성 연구. 교양교육연구, 18(5):159-173. http://doi.org/10.46392/kjge.2024.18.5.159].
crossref
Escalante, J., Pack, A., & Barrett, A. (2023). AI-generated feedback on writing: Insights into efficacy and ENL student preference. International Journal of Educational Technology in Higher Education, 20(57), 1-20. https://doi.org/10.1186/s41239-023-00425-2.
crossref
Hamp-Lyons, L., & Chen, J. (1999). An investigation into the effectiveness of teacher feedback on student writing. English Language Teaching and Learning, 23(1), 207-220.

Jeon, H. O., & Chei, M. (2024). In <Writing Mentoring>, ChatGPT use cases and changes in participant perception. Korea Edutainment Society Journal of the Edutainment, 6(2), 65-85. http://doi.org/10.36237/koedus.6.2.65
[전현옥, 채민정 (2024). <글쓰기멘토링>에서 ChatGPT 활용사례와 참여자 인식변화. 에듀테인먼트연구, 6(2):65-85 http://doi.org/10.36237/koedus.6.2.65].
crossref
Jung, H., & Lee, J. (2008). Experimental study on the methods of revision in college writing. Korean Language Education Research, 33:657-685. http://doi.org/10.20880/kler.2008..33.657
[정희모, 이재성. (2008) 대학생 글쓰기의 수정 방법에 관한 실험 연구-자기첨삭, 동료첨삭, 교수첨삭의 효과를 중심으로. 국어교육학연구, (33), 657-685. http://doi.org/10.20880/kler.2008..33.657].
crossref
Kwon, T. (2024). A study on writing scoring and feedback practices using ChatGPT: Focusing on prompting strategies. Korean Education, 141:7-42. http://doi.org/10.15734/koed..141.202412.7
[권태현. (2024). ChatGPT를 활용한 쓰기 채점 및 피드백 방안-프롬프트 전략을 중심으로. 새국어교육, (141), 7-42. http://doi.org/10.15734/koed..141.202412.7].
crossref
Lee, H. (2020). Comparison and analysis of college students'argumental writings. EOMUNHAK-The Korean Language and Literature, 147:263-287. http://doi.org/10.37967/emh.2020.03.147.263
[이희영. (2020). 대학생들의 논증 양상 비교 분석. 어문학, 147, 263-287. http://doi.org/10.37967/emh.2020.03.147.263].
crossref
Lee, Y., & Jung, H. (2014). A study on aspects and validity of peer feedback in college students'writing. Korean Writing Association, 20:299-234.
[이윤빈, 정희모. (2014). 대학 글쓰기에서 동료 피드백의 양상 및 타당도 연구. 작문연구, (20), 299-334.].

Lee, Y. (2016). Aspects and effects of peer feedback activities by the difference of peer group members writing levels. Korean Language Education, 154:127-164.
[이윤빈. (2016). 모둠 구성원의 쓰기 수준 차이에 따른 대학생 동료 피드백 활동의 양상 및 효과. 국어교육, 154, 127-164.].

Liang, W., Zhang, Y., Cao, H., Wang, B., Ding, D. Y., Yang, X., Vodrahalli, K., He, S., Smith, D. S., Yin, Y., McFarland, D. A., & Zou, J.. (2023 Can large language models provide useful feedback on research papers? A large-scale empirical analysis, arXiv preprint arXiv:2310.01783, 1-39.
https://arxiv.org/abs/2310.01783
crossref
National Institute of Korean Language. (2023). Development of a diagnostic system for the Korean public's writing competence (Research Report No. 2023-01-37). National Institute of Korean Language.,
[국립국어원. (2023). 2023년 국민의 글쓰기 능력 진단 체계 개발 (연구보고서 2023-01-37). 국립국어원.].

Paulus, T. M. (1999). The effect of peer and teacher feedback on student writing. Journal of Second Language Writing, 8(3), 265-289. https://doi.org/10.1016/S1060-3743(99)80117-9.
crossref
Seßler, K., Bewersdorff, A., Nerdel, C., & Kasneci, E. (2025). Towards adaptive feedback with AI: Comparing the feedback quality of LLMs and teachers on experimentation protocols. arXiv preprint arXiv: 2502.12842, 1-27. https://arxiv.org/abs/2502.12842.

Seo, Y., & Jeon, E. (2012). A study of peer feedback opinion validity by types on writing. Korean Language Education Research, 44:369-395. http://doi.org/10.20880/kler.2012..44.369
[서영진, 전은주. (2012). 작문 활동에서 동료 피드백 의견의 유형별 타당도 연구. 국어교육학연구, (44), 369-395. http://doi.org/10.20880/kler.2012..44.369].
crossref
Thirakunkovit, S., & Chamcharatsri, B. P.. (2019 A meta-analysis of effectiveness of teacher and peer feedback: Implications for writing instructions and research, Asian EFL Journal, 21(1), 140-170.
http://www.asian-efl-journal.com

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention is all you need. In Advances in Neural Information Processing Systems, 30:https://doi.org/10.48550/arXiv.1706.03762.
crossref
Wang, Z., & Han, F. (2022). The effects of teacher feedback and automated feedback on cognitive and psychological aspects of foreign language writing: A mixed-methods research. Frontiers in Psychology, 13:1-16. https://doi.org/10.3389/fpsyg.2022.909802.
crossref
Zacharias, N. T. (2007). Teacher and student attitudes toward teacher feedback. RELC Journal, 38(1), 38-52. https://doi.org/10.1177/0033688206076157.
crossref
Zhan, L. (2016). Written teacher feedback: Student perceptions, teacher perceptions, and actual teacher performance. English Language Teaching, 9(8), 73-83. https://doi.org/10.5539/elt.v9n8p73.
crossref
Zhao, H. (2010). Investigating learners'use and understanding of peer and teacher feedback on writing: A comparative study. Assessing Writing, 15(1), 3-17. https://doi.org/10.1016/j.asw.2010.01.002.
crossref
TOOLS
Share :
Facebook Twitter Linked In Google+ Line it
METRICS Graph View
  • 0 Crossref
  •    
  • 127 View
  • 16 Download
Related articles in Korean J General Edu


ABOUT
ARTICLE CATEGORY

Browse all articles >

BROWSE ARTICLES
EDITORIAL POLICY
AUTHOR INFORMATION
Editorial Office
Inje University
197, Inje-ro, Gimhae-si, Gyeongsangnam-do 50834, Republic of Korea
Tel: +82-55-320-3737    E-mail: biokjy@inje.ac.kr                

Copyright © 2022 by The Korean Association of General Education.

Developed in M2PI

Close layer
prev next