AI 실험실

교사 피드백 초안의 품질을 어떻게 평가할까: 작은 평가셋으로 시작한 실험

좋은 문장을 만드는 문제보다, 교사가 믿고 고칠 수 있는 초안을 만드는 문제를 먼저 봤습니다.

김태영Mar 29, 2026
평가셋프롬프트 실험교사 피드백
교사 피드백 초안의 품질을 어떻게 평가할까: 작은 평가셋으로 시작한 실험

이 글의 문제의식

교사 업무를 돕는 생성형 기능을 만들 때 가장 먼저 눈에 들어오는 것은 모델 출력입니다. 문장이 자연스러운지, 길이가 적당한지, 말투가 부드러운지 같은 요소는 데모 단계에서도 바로 확인할 수 있습니다. 하지만 실제 제품에서는 그보다 더 중요한 질문이 남습니다.

"이 초안이 정말 좋은 초안인지 우리는 어떻게 판단할 것인가?"

교사 피드백은 단순 친절 문구가 아닙니다. 학생의 현재 상태를 어떻게 해석하는지, 어떤 다음 행동을 제안하는지, 불필요한 단정이 없는지, 관계를 해치지 않는지까지 함께 봐야 합니다. 그래서 우리는 모델을 바꾸기 전에 평가 기준부터 만들기로 했습니다.

왜 이 문제가 교육 현장에서 중요한가

교육 현장에서 피드백 문장은 짧아도 영향이 큽니다. 같은 내용이라도 표현 방식에 따라 학생은 격려로 받아들일 수도 있고, 낙인처럼 느낄 수도 있습니다. 보호자에게 전달될 가능성이 있는 문장이라면 더 신중해야 합니다.

따라서 교사 피드백 생성에서 중요한 것은 "그럴듯한 문장"이 아니라 아래 세 가지였습니다.

  • 실제 관찰에 근거하고 있는가
  • 학생을 단정하거나 평가적으로 규정하지 않는가
  • 다음 수업이나 상호작용에 도움이 되는가

이 기준이 없으면 모델 실험은 금방 인상 평가가 됩니다. 어떤 버전이 더 좋아 보인다는 감상은 남지만, 왜 좋은지 팀이 합의할 수는 없습니다.

접근 방식

우리는 거대한 벤치마크부터 만들지 않았습니다. 대신 작은 평가셋과 명확한 루브릭으로 시작했습니다. 이유는 두 가지였습니다.

첫째, 교육 맥락에서는 일반적인 글쓰기 점수보다 현장 적합성이 더 중요했습니다. 둘째, 실제 제품 초기에 필요한 것은 통계적으로 완벽한 결론보다, 나쁜 출력과 괜찮은 출력을 구분하는 팀 기준이었습니다.

그래서 아래 순서로 실험을 진행했습니다.

  1. 교사가 실제로 자주 쓰는 피드백 상황을 몇 가지 유형으로 정리한다.
  2. 각 유형마다 입력 메모와 기대 출력의 방향을 짧게 정의한다.
  3. 모델 출력에 점수를 주기보다, 루브릭 항목별 통과/경고 포인트를 기록한다.
  4. 점수보다 실패 패턴을 먼저 모은다.

구현/실험 내용

1. 평가셋은 작게 시작하되, 유형은 분명하게 나눈다

처음 만든 평가셋은 거창하지 않았습니다. 대신 피드백이 자주 필요한 장면을 분류하는 데 집중했습니다.

  • 수업 참여가 들쭉날쭉한 학생
  • 과제 제출이 늦어지는 학생
  • 태도 변화가 보이지만 원인이 불명확한 학생
  • 관계 회복이 필요한 학생

중요했던 것은 입력 길이나 문체보다, 교사가 실제로 고민하는 판단 장면을 담는 것이었습니다. 평가셋이 작더라도 장면이 선명하면 프롬프트 비교에서 차이가 잘 드러났습니다.

2. 루브릭은 5점 척도보다 실패 경고 중심이 낫다

처음에는 일반적인 평가표처럼 점수를 매겨보려 했습니다. 하지만 팀 리뷰에서는 점수보다 "왜 이 문장이 위험한가"가 더 중요했습니다. 그래서 아래 네 가지 질문으로 루브릭을 단순화했습니다.

항목확인 질문
근거성입력 메모에 없는 해석을 추가하지 않았는가
관계성학생을 낙인찍거나 단정하는 표현이 없는가
구체성다음 수업에서 교사가 참고할 행동 단서가 남는가
부담 조절지나치게 길거나 과도하게 훈육적인 문장이 아닌가

이 방식은 모델의 평균 점수를 세밀하게 비교하기엔 거칠지만, 현장 리스크를 빠르게 드러내는 데는 더 효과적이었습니다.

3. 잘 쓴 문장보다 위험한 문장을 먼저 모았다

좋은 출력 예시는 언제나 참고가 됩니다. 하지만 제품 초기에 더 도움이 된 것은 실패 사례 모음이었습니다. 예를 들어 아래와 같은 출력은 바로 경고 대상으로 묶였습니다.

  • 학생의 성향을 단정하는 문장
  • 입력에 없는 가정 배경을 추정하는 문장
  • 교사의 관찰보다 훈계 톤이 앞서는 문장
  • 다음 행동 없이 추상적인 위로로 끝나는 문장

이 실패 패턴을 먼저 모아두니 프롬프트를 조정할 때도 목표가 명확해졌습니다. 단순히 "더 따뜻하게"가 아니라 "근거 없는 추정을 줄이고, 다음 수업 행동을 남긴다"처럼 수정 방향을 정할 수 있었기 때문입니다.

4. 프롬프트 비교는 말투보다 출력 구조 비교가 중요했다

우리는 여러 프롬프트 버전을 비교하면서 말투와 길이보다 출력 구조를 먼저 맞췄습니다. 가장 효과가 있었던 것은 다음 세 가지 지시였습니다.

  • 입력 메모에 없는 사실은 추가하지 말 것
  • 학생을 성격으로 규정하지 말 것
  • 다음 상호작용에서 참고할 한 가지 행동 포인트를 남길 것

이 세 줄만으로도 출력의 안정성이 눈에 띄게 좋아졌습니다. 생성형 기능에서 프롬프트는 종종 문체 장식으로 소비되지만, 교육 맥락에서는 금지 규칙과 관찰 규칙이 더 중요하다는 점을 확인했습니다.

배운 점

이번 실험에서 가장 크게 배운 것은, 교육용 생성 기능의 품질 평가는 "좋은 문장 콘테스트"가 아니라 "위험을 줄이는 운영 설계"에 가깝다는 점입니다.

모델이 더 자연스러운 문장을 쓰는 것만으로는 충분하지 않았습니다. 중요한 것은 교사가 그 문장을 보고 "이건 내가 고쳐서 쓸 수 있겠다"라고 느끼는지였습니다. 즉 완성도보다 수정 가능성이 중요했습니다.

또한 평가셋은 처음부터 크지 않아도 괜찮았습니다. 다만 어떤 장면을 다루는지, 어떤 실패를 경계하는지, 어떤 문장이 현장에서 부담을 만드는지에 대한 기준은 처음부터 선명해야 했습니다.

현장적 의미

교사를 위한 AI 기능은 교사를 대신 쓰는 기능이 아니라, 교사가 더 안정적으로 쓰게 돕는 기능이어야 합니다. 그래서 우리는 정답 생성보다 초안 품질 기준을 먼저 만들고 있습니다.

이 접근은 속도가 느려 보일 수 있습니다. 하지만 평가 기준 없이 출력만 개선하는 방식은 결국 현장에서 다시 신뢰를 잃기 쉽습니다. 교육 현장에 필요한 것은 데모에서 멋져 보이는 문장이 아니라, 반복 사용해도 불안을 키우지 않는 초안입니다.

다음 단계

다음 단계에서는 작은 평가셋에 교사 리뷰 코멘트를 더 연결하려고 합니다. 현재는 출력 결과만 보고 판단하지만, 실제로는 "어느 부분을 왜 고쳤는지"가 훨씬 중요한 신호이기 때문입니다.

좋은 피드백 생성 기능은 모델이 혼자 완성하지 않습니다. 교사의 수정 습관과 판단 기준을 함께 반영할 때 비로소 제품이 됩니다. 이번 실험은 그 출발점이 되는 기준을 세우는 과정이었습니다.

이 주제에 대해 DoRm과 이야기해보고 싶다면

팀 소개에서 연락처 보기