728x90
[기록] AI 엔지니어링 2장
파운데이션 모델을 직접 만들지 않더라도, 모델의 성능과 행동을 결정하는 4가지 축(데이터, 아키텍처, 사후 훈련, 샘플링)을 이해하는 것은 AI 앱 구축의 필수 조건임.
1. 훈련 데이터 (Training Data)
- 데이터 의존성: 모델은 훈련 데이터에 없는 언어나 지식(특수 도메인 등)은 절대 알 수 없음.
- 영어 편향: 인터넷 데이터(Common Crawl 등)의 약 45%가 영어라 비영어권 성능이 상대적으로 낮음.
- 품질의 중요성: 무조건 많은 양보다는 고품질로 정제된 데이터가 모델 성능을 좌우함.
2. 모델링: 아키텍처와 규모 (Modeling)
- 트랜스포머(Transformer): 어텐션(Attention) 메커니즘을 통해 문맥 내 토큰 간의 관계와 중요도를 계산하는 현재의 주류 구조임.
- 추론의 2단계:
- 프리필(Prefill): 입력 토큰을 병렬 처리해 첫 토큰 생성 준비 (연산 집약적).
- 디코드(Decode): 다음 토큰을 하나씩 순차적으로 생성 (메모리 대역폭 집약적).
- 스케일링 법칙: 파라미터 수, 데이터 양, 컴퓨팅 비용 사이의 최적 조합이 존재하며 규모가 클수록 능력이 향상됨.
3. 사후 훈련 및 정렬 (Post-Training)
- SFT (지도 미세 조정): '문장 이어 쓰기' 모델을 인간의 지시를 따르는 '대화형'으로 바꾸는 과정임.
- RLHF (인간 피드백 강화 학습): 인간의 선호도에 맞춰 답변을 최적화함. 거친 인터넷 데이터를 학습한 모델(쇼고스)에 '서비스용 웃는 가면'을 씌우는 작업과 같음.
4. 샘플링: 확률적 본성 (Sampling)
- 확률 기반 선택: 모델은 결정론적이 아니라 확률적으로 다음 단어를 선택함. 이로 인해 창의성과 불안정성이 동시에 발생함.
- 조절 파라미터:
- 온도(Temperature): 낮으면 일관성(결정론적), 높으면 다양성(창의적) 증대.
- Top-k / Top-p: 확률이 낮은 토큰을 배제해 답변 품질을 관리함.
5. 주요 도전 과제
- 불일치성(Inconsistency): 같은 질문에도 매번 답이 다를 수 있어 신뢰도에 영향을 줌.
- 환각(Hallucination): 그럴듯한 거짓말을 하는 현상. 특히 초기 오류를 정당화하려 거짓말을 쌓아가는 스노볼링 환각 위험이 존재함.
반응형
'Side Project' 카테고리의 다른 글
| 코딩 없이 내 아이디어 테스트하기: '날짜 입력 기반' 맞춤형 서비스 프로토타입 만들기 (0) | 2026.03.06 |
|---|---|
| 모델 학습에서 제품 구축으로: 나의 첫 AI 엔지니어링 사이드 프로젝트 시작기 (0) | 2026.03.04 |