ChatGPT에 질문을 던지면 마치 사람처럼 유창한 답변이 돌아옵니다. 하지만 그 안에서는 정교한 수학적 연산이 초당 수십억 번씩 일어나고 있습니다. 이 장에서는 그 연산의 본질, AI를 "똑똑하게" 만드는 핵심 기술들을 하나씩 풀어보겠습니다.
AI에게 "눈"을 준 기술 -- 2017년 Google "Attention Is All You Need" 논문에서 탄생
예전 방식(RNN)은 서가를 맨 처음부터 한 권씩 넘기는 것과 같았습니다. 100번째 책을 볼 때쯤이면 처음에 봤던 좋은 자료의 내용은 이미 희미해지죠. 앞의 정보가 뒤로 갈수록 사라지는 "기억력 한계"가 있었습니다.
Transformer의 Attention은 완전히 다릅니다. 도서관 전체에 걸친 인덱스 검색 시스템을 갖춘 것과 같습니다. "이 단어와 가장 관련 있는 단어는 어디에 있지?"라고 묻는 순간, 전체를 한 번에 검색합니다. 게다가 이 검색을 동시에 병렬로 수행할 수 있어서, GPU를 최대한 활용해 학습 속도가 비약적으로 빨라졌습니다.
단어를 한 개씩 순서대로 처리
앞의 정보가 점점 희미해짐
모든 단어 관계를 동시에 계산
어떤 거리든 즉시 참조 가능
종합병원의 지혜 -- 큰 병원의 전문성을 유지하면서 작은 의원의 효율성을 동시에 얻다
병원에는 내과, 외과, 안과, 피부과 등 수십 명의 전문의가 있습니다. 하지만 감기 환자가 오면 내과 의사 한 명만 진료하면 됩니다. 전체 병원의 규모는 거대하지만, 한 환자를 치료하는 데 실제로 일하는 의사는 소수입니다.
| 구성 요소 | 역할 | 비유 |
|---|---|---|
| Expert (전문가) | 특정 유형의 입력을 처리하는 독립적인 신경망 | 각 진료과의 전문의 |
| Router (라우터) | 입력을 어떤 Expert에게 보낼지 결정 | 접수 창구의 간호사 |
| Gating Network | Expert 선택 확률을 계산 | 증상에 따른 진료과 배정 시스템 |
| 모델 | 총 파라미터 | 활성 파라미터 | 활성 비율 |
|---|---|---|---|
| GPT-4 (추정) | ~1.7T | ~220B (8개 Expert) | ~13% |
| DeepSeek-V3.2 | 685B | 37B | ~5.4% |
| LLaMA 4 Scout | 109B (16개 Expert) | 17B | ~15.6% |
| Qwen 3.5 | 397B | 17B | ~4.3% |
RLHF에서 DPO로 -- 요리 학교의 두 가지 교육 방식
AI 모델은 방대한 인터넷 데이터를 학습합니다. 그래서 사전 학습만으로는 유해한 내용을 생성하거나, 질문과 동떨어진 답변을 할 수 있습니다. "정렬(Alignment)"은 AI를 사람의 선호도와 가치관에 맞추는 핵심 과정입니다.
먼저 "음식 평론가"를 양성합니다. 이 평론가에게 좋은 요리와 나쁜 요리를 보여주며 판별 기준을 가르칩니다. 그다음, 요리사(AI)가 요리를 만들 때마다 평론가가 점수를 매기고, 요리사는 그 점수를 보고 실력을 개선합니다. 효과적이지만, 평론가를 따로 양성해야 하므로 시스템이 복잡합니다.
평론가 없이, 요리사에게 직접 "A 요리와 B 요리 중 A가 더 낫다"는 비교 데이터를 줍니다. 요리사는 비교를 통해 스스로 무엇이 좋은 요리인지 학습합니다. 더 단순하고, 더 안정적이며, 더 저렴합니다.
RLHF: 3단계
DPO: 2단계
| 비교 항목 | RLHF | DPO |
|---|---|---|
| 핵심 방식 | 보상 모델 학습 후 강화학습으로 최적화 | 선호도 데이터로 직접 모델 최적화 |
| 학습 단계 | 3단계 (SFT → 보상 모델 → PPO) | 2단계 (SFT → DPO) |
| 안정성 | 불안정할 수 있음 (보상 해킹 등) | 더 안정적 |
| 계산 비용 | 높음 (보상 모델 + 강화학습) | 낮음 (분류 손실 함수만 사용) |
| 대표 적용 | GPT-4, Claude 초기 버전 | Claude 후기 버전, LLaMA 2+ |
"생각하는 AI"의 등장 -- 2024년 9월 OpenAI o1 모델에서 처음 대중적으로 도입
수학 시험을 본다고 상상해보세요. 기존 AI는 문제를 보자마자 바로 답을 적었습니다. 빠르지만 복잡한 문제에서 실수가 잦았죠. 추론 시간 컴퓨팅은 "잠깐, 이 문제를 단계별로 풀어보자"라고 스스로 생각하는 것입니다. 연습장에 풀이 과정을 쓰고, 틀린 부분을 발견하면 수정하고, 최종 답을 확인한 뒤 제출합니다.
모델을 더 크게, 더 많은 데이터로 학습하면 성능이 오른다
같은 모델이라도 추론 시 더 많은 연산을 투입하면 성능이 오른다
AI의 책상이 커진다 -- 3년 만에 2,500배 확장
컨텍스트 윈도우는 AI의 작업 책상 크기와 같습니다. 4K 토큰은 A4 용지 3~4장을 올려놓을 수 있는 작은 책상, 10M 토큰은 작은 도서관의 서가 전체를 한눈에 볼 수 있는 수준입니다.
작지만 강한 -- 모든 요리에 미슐랭 셰프가 필요하지는 않다 (1B~14B 파라미터)
거대 모델만큼 모든 것을 잘하지는 못하지만, 특정 작업에서는 충분히 좋은 성능을 훨씬 적은 비용으로 제공합니다. 심지어 스마트폰이나 노트북에서도 작동합니다.
오감을 가진 AI -- "눈만 있는 사람"에서 "오감을 가진 사람"으로
이전의 AI는 감각이 하나뿐이었습니다. 텍스트 AI는 글만 읽을 수 있고, 이미지 AI는 그림만 볼 수 있었죠. 멀티모달 AI는 오감을 가진 사람처럼, 글을 읽으면서 동시에 그림을 보고, 소리를 듣고, 영상을 이해합니다.
| 능력 | GPT-4o/5 | Claude 4 | Gemini 2.5 | LLaMA 4 |
|---|---|---|---|---|
| 텍스트 입출력 | O | O | O | O |
| 이미지 입력 | O | O | O | O |
| 이미지 생성 | O | X | O | X |
| 오디오 입출력 | O (네이티브) | X | O | X |
| 비디오 이해 | O | 제한적 | O (네이티브) | O |
| 실시간 대화 | O | X | O | X |
AI 성능 향상의 공식 -- 머리 크기 vs 공부량, 무엇이 더 중요한가
6개월이면 세상이 바뀐다 -- AI 업계의 발전 속도는 다른 기술 분야와 비교불가
| 기간 | 출시 수 | 대표 모델 |
|---|---|---|
| 2023 상반기 | ~5개 | GPT-4, Claude 1, LLaMA 1, PaLM 2 |
| 2023 하반기 | ~8개 | GPT-4 Turbo, Claude 2, LLaMA 2, Mistral 7B, Gemini 1.0 |
| 2024 상반기 | ~10개 | Claude 3, GPT-4o, Gemini 1.5, LLaMA 3, Phi-3 |
| 2024 하반기 | ~12개 | o1, Claude 3.5, Gemini 2.0 Flash, DeepSeek-V3, Phi-4 |
| 2025 상반기 | ~15개+ | o3, DeepSeek-R1, Claude 3.7, Gemini 2.5, LLaMA 4, GPT-4.5, Claude 4 |
| 2025 하반기 | ~15개+ | GPT-5, DeepSeek-V3.1/V3.2, Claude Opus 4.5 |
| 2026 초 | 이미 5개+ | Claude 4.6, Sonnet 4.6, Gemini 3.1 Pro, Qwen 3.5 |
2023~2026 AI 기술 진화의 핵심 요약
다음 장에서는 이러한 기술 원리 위에서 벌어지고 있는 AI 모델들의 치열한 경쟁,
"AI 모델 전쟁"을 살펴보겠습니다.