본문 바로가기
Information (정보 공유)/Tech (테크)

평가방법론

by 김조이1 2026. 3. 13.
728x90
[기록] AI 엔지니어링 3장: 평가 방법론
AI 모델이 강력해질수록 실패의 위험도 커지므로, 단순한 '눈대중(Eyeballing)'이 아닌 체계적이고 자동화된 평가 시스템을 구축하는 것이 AI 엔지니어링의 핵심임.
1. 파운데이션 모델 평가의 어려움
  • 정답의 부재: 전통적인 ML과 달리 생성형 AI는 정답(Ground Truth)이 하나가 아니며, 가능한 모든 정답 리스트를 만드는 것이 불가능함.
  • 주관적 품질: 단순히 문장이 자연스러운지 뿐만 아니라 사실 관계 확인(Fact-check), 추론 능력, 도메인 전문 지식 등이 복잡하게 얽혀 있음.
2. 언어 모델링 지표 (Proxy Metrics)
모델 훈련 과정이나 초기 평가에서 대리 지표로 사용되는 통계적 수치들임.
  • 엔트로피(Entropy): 토큰이 전달하는 정보의 양을 측정함.
  • 교차 엔트로피(Cross Entropy): 모델이 데이터셋의 다음 토큰을 얼마나 잘 예측하는지 측정하며, 손실 함수로 주로 사용됨.
  • 퍼플렉서티(Perplexity, PPL): 모델이 다음 토큰을 예측할 때 느끼는 '불확실성'의 정도임. 수치가 낮을수록 모델이 텍스트를 더 잘 예측한다는 의미지만, 사후 훈련(SFT/RLHF) 후에는 오히려 수치가 높아질 수도 있어 주의가 필요함.
3. 정확한 평가 (Exact Evaluation)
주관성을 배제하고 명확한 기준에 따라 수행하는 평가 방식임.
  • 기능적 정확성: 코드가 테스트 케이스를 통과하는지 확인하는 등 실행 가능한 결과를 평가함.
  • 유사도 측정 (Similarity Measurements):
    • 완전 일치(Exact match): 정답과 토큰 하나하나가 완벽히 일치하는지 확인.
    • 어휘 유사도(Lexical similarity): BLEU, ROUGE 등 n-gram 중첩을 기반으로 텍스트의 외형이 얼마나 닮았는지 측정함.
    • 의미 유사도(Semantic similarity): 텍스트를 수치화한 **임베딩(Embedding)**을 통해 의미적 거리를 측정하며, 주로 코사인 유사도를 사용함.
4. AI가 평가자(Judge)가 되는 방식
사람의 평가를 자동화하기 위해 더 강력한 LLM을 평가자로 활용하는 기법임.
  • 장점: 빠르고 비용이 저렴하며, 평가 결과에 대한 이유를 설명할 수 있음. 사람의 평가와 상관관계가 매우 높음 (GPT-4의 경우 사람과 약 85% 일치).
  • 단점 및 편향: 자신이 생성한 답변을 선호하는 자기 복제 편향(Self-bias), 답변이 길수록 점수를 잘 주는 길이 편향, 답변의 순서에 영향을 받는 편향 등이 존재함.
  • 전용 평가 모델: 보상 모델(Reward model)이나 PandaLM처럼 평가 및 비교에 특화된 작은 모델을 사용하기도 함.
5. 비교 평가를 통한 모델 랭킹 (Comparative Evaluation)
절대적인 점수를 매기는 것보다 두 모델의 답변을 나란히 놓고 어떤 것이 더 나은지 결정하는 방식임.
  • Elo 레이팅: 챗봇 아레나(Chatbot Arena)처럼 모델 간의 승패 기록을 바탕으로 상대적인 순위를 산정함.
  • 상대성: 비교 평가는 'A가 B보다 낫다'는 것은 알려주지만, 'A가 서비스에 투입될 만큼 충분히 좋은가'라는 절대적인 품질은 알려주지 않음.

요약: 생성형 AI 평가는 언어 지표(PPL) → 기술적 유사도 → AI 판사(Judge) → 비교 평가로 이어지는 다각도 접근이 필요함. 특히 AI 판사는 강력하지만 편향이 존재하므로 항상 정확한 수치 평가와 사람의 검토(Human-in-the-loop)를 병행해야 함

반응형