파운데이션 모델의 이해

[기록] AI 엔지니어링 2장

파운데이션 모델을 직접 만들지 않더라도, 모델의 성능과 행동을 결정하는 4가지 축(데이터, 아키텍처, 사후 훈련, 샘플링)을 이해하는 것은 AI 앱 구축의 필수 조건임.

1. 훈련 데이터 (Training Data)

2. 모델링: 아키텍처와 규모 (Modeling)

트랜스포머(Transformer): 어텐션(Attention) 메커니즘을 통해 문맥 내 토큰 간의 관계와 중요도를 계산하는 현재의 주류 구조임.
추론의 2단계:
- 프리필(Prefill): 입력 토큰을 병렬 처리해 첫 토큰 생성 준비 (연산 집약적).
- 디코드(Decode): 다음 토큰을 하나씩 순차적으로 생성 (메모리 대역폭 집약적).
스케일링 법칙: 파라미터 수, 데이터 양, 컴퓨팅 비용 사이의 최적 조합이 존재하며 규모가 클수록 능력이 향상됨.

3. 사후 훈련 및 정렬 (Post-Training)

SFT (지도 미세 조정): '문장 이어 쓰기' 모델을 인간의 지시를 따르는 '대화형'으로 바꾸는 과정임.
RLHF (인간 피드백 강화 학습): 인간의 선호도에 맞춰 답변을 최적화함. 거친 인터넷 데이터를 학습한 모델(쇼고스)에 '서비스용 웃는 가면'을 씌우는 작업과 같음.

4. 샘플링: 확률적 본성 (Sampling)

확률 기반 선택: 모델은 결정론적이 아니라 확률적으로 다음 단어를 선택함. 이로 인해 창의성과 불안정성이 동시에 발생함.
조절 파라미터:
- 온도(Temperature): 낮으면 일관성(결정론적), 높으면 다양성(창의적) 증대.
- Top-k / Top-p: 확률이 낮은 토큰을 배제해 답변 품질을 관리함.

5. 주요 도전 과제

불일치성(Inconsistency): 같은 질문에도 매번 답이 다를 수 있어 신뢰도에 영향을 줌.
환각(Hallucination): 그럴듯한 거짓말을 하는 현상. 특히 초기 오류를 정당화하려 거짓말을 쌓아가는 스노볼링 환각 위험이 존재함.

평가방법론 (0)	2026.03.13
Google Interview Warmup 으로 인터뷰 연습하기 (0)	2025.02.11
트위터와 비슷한 텍스트 기반의 소셜 미디어 플랫폼 ‘스레드 (Threads)’ 특징 및 주요 이슈 (0)	2023.07.07

ISFP 데이터 사이언스 석사생의 블로그