Ch2. AI는 어떻게 생각하는가

SECTION 2.1

Transformer와 Attention

AI에게 "눈"을 준 기술 -- 2017년 Google "Attention Is All You Need" 논문에서 탄생

도서관 사서 vs 인덱스 검색

예전 방식(RNN)은 서가를 맨 처음부터 한 권씩 넘기는 것과 같았습니다. 100번째 책을 볼 때쯤이면 처음에 봤던 좋은 자료의 내용은 이미 희미해지죠. 앞의 정보가 뒤로 갈수록 사라지는 "기억력 한계"가 있었습니다.

Transformer의 Attention은 완전히 다릅니다. 도서관 전체에 걸친 인덱스 검색 시스템을 갖춘 것과 같습니다. "이 단어와 가장 관련 있는 단어는 어디에 있지?"라고 묻는 순간, 전체를 한 번에 검색합니다. 게다가 이 검색을 동시에 병렬로 수행할 수 있어서, GPU를 최대한 활용해 학습 속도가 비약적으로 빨라졌습니다.

RNN vs Transformer 처리 방식 비교

RNN (순차 처리)

단어를 한 개씩 순서대로 처리
앞의 정보가 점점 희미해짐

Transformer (병렬 처리)

모든 단어 관계를 동시에 계산
어떤 거리든 즉시 참조 가능

Transformer의 세 가지 핵심 혁신

핵심 1

Self-Attention (자기 주의 메커니즘)

문장 내 모든 단어가 다른 모든 단어와의 관련성을 동시에 계산합니다. "은행에서 돈을 인출했다"에서 "은행"은 강둑일까요, 금융기관일까요? Self-Attention은 "돈", "인출"이라는 주변 단어와의 관계를 파악하여 금융기관이라는 의미를 정확히 잡아냅니다.

핵심 2

병렬 처리

이전의 순차 처리 방식(RNN/LSTM)은 단어를 한 개씩 읽어야 했습니다. Transformer는 문장의 모든 단어를 동시에 처리합니다. 한 명이 줄지어 서류를 처리하는 것과, 열 명이 나눠서 동시에 처리하는 것의 차이입니다.

핵심 3

Multi-Head Attention

하나의 관점이 아닌 여러 개의 "머리(Head)"가 각각 다른 관점에서 관련성을 분석합니다. 한 Head는 문법적 관계에 주목하고, 다른 Head는 의미적 유사성에 집중하는 식입니다. 마치 여러 전문가가 같은 문서를 서로 다른 관점에서 동시에 분석하는 것과 같습니다.

SECTION 2.2

MoE (Mixture of Experts)

종합병원의 지혜 -- 큰 병원의 전문성을 유지하면서 작은 의원의 효율성을 동시에 얻다

병원에는 내과, 외과, 안과, 피부과 등 수십 명의 전문의가 있습니다. 하지만 감기 환자가 오면 내과 의사 한 명만 진료하면 됩니다. 전체 병원의 규모는 거대하지만, 한 환자를 치료하는 데 실제로 일하는 의사는 소수입니다.

MoE 전문가 라우팅 시뮬레이션 (클릭해보세요)

코딩 질문

수학 문제

번역 요청

Router
(라우터)

💻코딩 전문가

📊수학 전문가

🌐언어 전문가

📚일반 지식

입력 유형을 클릭하면 라우터가 적합한 전문가를 활성화합니다

MoE의 구조

구성 요소	역할	비유
Expert (전문가)	특정 유형의 입력을 처리하는 독립적인 신경망	각 진료과의 전문의
Router (라우터)	입력을 어떤 Expert에게 보낼지 결정	접수 창구의 간호사
Gating Network	Expert 선택 확률을 계산	증상에 따른 진료과 배정 시스템

실제 적용 사례

모델	총 파라미터	활성 파라미터	활성 비율
GPT-4 (추정)	~1.7T	~220B (8개 Expert)	~13%
DeepSeek-V3.2	685B	37B	~5.4%
LLaMA 4 Scout	109B (16개 Expert)	17B	~15.6%
Qwen 3.5	397B	17B	~4.3%

DeepSeek-V3.2는 전체 파라미터의 5.4%만 활성화합니다. 685B의 지식 용량을 갖추면서도, 실제 추론 비용은 37B 모델 수준이라는 뜻입니다. 이것이 MoE가 현재 AI 업계의 주류 아키텍처가 된 이유입니다.

SECTION 2.3

AI를 "착하게" 만드는 기술

RLHF에서 DPO로 -- 요리 학교의 두 가지 교육 방식

AI 모델은 방대한 인터넷 데이터를 학습합니다. 그래서 사전 학습만으로는 유해한 내용을 생성하거나, 질문과 동떨어진 답변을 할 수 있습니다. "정렬(Alignment)"은 AI를 사람의 선호도와 가치관에 맞추는 핵심 과정입니다.

RLHF (보상 모델 기반)

먼저 "음식 평론가"를 양성합니다. 이 평론가에게 좋은 요리와 나쁜 요리를 보여주며 판별 기준을 가르칩니다. 그다음, 요리사(AI)가 요리를 만들 때마다 평론가가 점수를 매기고, 요리사는 그 점수를 보고 실력을 개선합니다. 효과적이지만, 평론가를 따로 양성해야 하므로 시스템이 복잡합니다.

DPO (직접 선호 최적화)

평론가 없이, 요리사에게 직접 "A 요리와 B 요리 중 A가 더 낫다"는 비교 데이터를 줍니다. 요리사는 비교를 통해 스스로 무엇이 좋은 요리인지 학습합니다. 더 단순하고, 더 안정적이며, 더 저렴합니다.

학습 파이프라인 비교

RLHF: 3단계

SFT
지도 미세조정

➔

보상 모델
평론가 양성

➔

PPO
강화학습

DPO: 2단계

SFT
지도 미세조정

➔

DPO
직접 선호 최적화

RLHF vs DPO 비교

비교 항목	RLHF	DPO
핵심 방식	보상 모델 학습 후 강화학습으로 최적화	선호도 데이터로 직접 모델 최적화
학습 단계	3단계 (SFT → 보상 모델 → PPO)	2단계 (SFT → DPO)
안정성	불안정할 수 있음 (보상 해킹 등)	더 안정적
계산 비용	높음 (보상 모델 + 강화학습)	낮음 (분류 손실 함수만 사용)
대표 적용	GPT-4, Claude 초기 버전	Claude 후기 버전, LLaMA 2+

업계의 흐름은 분명합니다. 더 단순하고, 더 안정적이며, 더 저렴한 DPO 방향으로 이동하고 있습니다.

SECTION 2.4

추론 시간 컴퓨팅

"생각하는 AI"의 등장 -- 2024년 9월 OpenAI o1 모델에서 처음 대중적으로 도입

수학 시험을 본다고 상상해보세요. 기존 AI는 문제를 보자마자 바로 답을 적었습니다. 빠르지만 복잡한 문제에서 실수가 잦았죠. 추론 시간 컴퓨팅은 "잠깐, 이 문제를 단계별로 풀어보자"라고 스스로 생각하는 것입니다. 연습장에 풀이 과정을 쓰고, 틀린 부분을 발견하면 수정하고, 최종 답을 확인한 뒤 제출합니다.

작동 원리

Step 1

체인 오브 소트 (Chain of Thought)

모델이 답변을 생성하기 전, 내부적으로 사고 과정을 거칩니다.

Step 2

문제 분해 & 다중 접근

문제를 분해하고, 여러 접근법을 시도하고, 자체적으로 오류를 검증합니다.

Step 3

강화학습 기반 사고 조절

강화학습(RL)을 통해 "언제, 얼마나 깊이 생각할지"를 학습합니다. o3-mini의 경우 low/medium/high 세 가지 사고 노력 수준을 API에서 직접 지정할 수 있습니다.

패러다임 전환: 두 개의 스케일링 축

학습 시간 스케일링

모델을 더 크게, 더 많은 데이터로 학습하면 성능이 오른다

추론 시간 스케일링

같은 모델이라도 추론 시 더 많은 연산을 투입하면 성능이 오른다

이 두 축이 합쳐지면서, "더 큰 모델" 시대에서 "더 똑똑한 모델" 시대로의 전환이 이루어졌습니다.

SECTION 2.5

컨텍스트 윈도우의 확장

AI의 책상이 커진다 -- 3년 만에 2,500배 확장

컨텍스트 윈도우는 AI의 작업 책상 크기와 같습니다. 4K 토큰은 A4 용지 3~4장을 올려놓을 수 있는 작은 책상, 10M 토큰은 작은 도서관의 서가 전체를 한눈에 볼 수 있는 수준입니다.

GPT-3.5 (2022)

4K

짧은 대화, 간단한 질문

GPT-4 (2023)

32K

긴 문서 요약, 논문 분석

Claude 2 (2023)

200K

책 한 권 분석

Gemini 1.5 (2024)

1M

코드베이스 전체, 영상 이해

GPT-4.1 (2025)

1M

대규모 코드 리뷰

LLaMA 4 (2025)

10M

수년 치 문서, 책 시리즈 전체

2,500x

3년간 컨텍스트 확장

10M

최대 토큰 (2025)

~750만

단어 (1M 토큰 기준)

더 이상 문서를 잘게 쪼개서 분석할 필요 없이, 전체 코드베이스나 프로젝트 문서를 통째로 AI에게 넘겨줄 수 있게 되었습니다.

SECTION 2.6

소형 모델의 반격 -- SLM

작지만 강한 -- 모든 요리에 미슐랭 셰프가 필요하지는 않다 (1B~14B 파라미터)

거대 모델만큼 모든 것을 잘하지는 못하지만, 특정 작업에서는 충분히 좋은 성능을 훨씬 적은 비용으로 제공합니다. 심지어 스마트폰이나 노트북에서도 작동합니다.

Phi-4

Microsoft

14B

합성 데이터로 수학/추론 능력 극대화 (GSM8K: 93.7%)

Gemma 3n

Google

~2B (유효)

텍스트+이미지+오디오+비디오, 140+ 언어, 온디바이스

Qwen 2.5 시리즈

Alibaba

0.5B~72B

다양한 크기 옵션, 코딩 특화 모델 포함

LLaMA 3.2

멀티모달 통합

오감을 가진 AI -- "눈만 있는 사람"에서 "오감을 가진 사람"으로

이전의 AI는 감각이 하나뿐이었습니다. 텍스트 AI는 글만 읽을 수 있고, 이미지 AI는 그림만 볼 수 있었죠. 멀티모달 AI는 오감을 가진 사람처럼, 글을 읽으면서 동시에 그림을 보고, 소리를 듣고, 영상을 이해합니다.

멀티모달 AI 입출력 흐름 (항목을 클릭해보세요)

📄 텍스트 입력

📷 이미지 입력

🎤 오디오 입력

🎥 비디오 입력

➔

🧠

➔

💬 텍스트 답변

🎨 이미지 생성

🔊 음성 출력

멀티모달 지원 현황 (2026년 3월 기준)

능력	GPT-4o/5	Claude 4	Gemini 2.5	LLaMA 4
텍스트 입출력	O	O	O	O
이미지 입력	O	O	O	O
이미지 생성	O	X	O	X
오디오 입출력	O (네이티브)	X	O	X
비디오 이해	O	제한적	O (네이티브)	O
실시간 대화	O	X	O	X

멀티모달 통합은 단순히 "여러 형식을 이해한다"를 넘어, 입력 형식에 관계없이 통합적으로 추론하는 능력을 의미합니다.

SECTION 2.8

스케일링 법칙

AI 성능 향상의 공식 -- 머리 크기 vs 공부량, 무엇이 더 중요한가

2020 · OpenAI

Kaplan 스케일링 법칙

"머리가 좋은 학생(큰 모델)이면 교과서 조금만 읽어도 성적이 오른다." 컴퓨팅 예산이 10배 늘면, 모델 크기를 5.5배, 데이터를 1.8배 늘려야 한다. 이 법칙에 따라 GPT-3(175B 파라미터, 300B 토큰)이 탄생했습니다.

2022 · DeepMind

Chinchilla 법칙

"머리 크기(모델)와 공부량(데이터)의 균형이 중요하다." 파라미터 1개당 약 20개의 학습 토큰이 필요하다. 실제로 70B 모델을 1.4T 토큰으로 학습시킨 Chinchilla가, 280B 모델을 300B 토큰으로 학습시킨 Gopher보다 더 좋은 성능을 보였습니다.

2024~ · 추론 최적화 시대

더 작고 더 오래 학습

추론 시 자주 호출되는 모델은 Chinchilla 최적보다 더 작고 더 오래 학습하는 것이 효율적. Qwen3-0.6B는 600M 파라미터에 무려 36T 토큰을 학습 -- 토큰/파라미터 비율이 60,000:1.

파라미터 수 증가 추세

파라미터 증가 추이 (로그 스케일)

학습 데이터: 양에서 질로

📈

GPT-3: 300B 토큰

Qwen3-0.6B: 36T 토큰

규모의 변화

🤖

실제 데이터만 사용

합성 데이터의 부상

Phi 시리즈: 14B로 70B급 성능

⚠

인터넷 데이터 충분

데이터 고갈 문제

합성+멀티모달 데이터 중요성 급부상

SECTION 2.9

발전 속도

6개월이면 세상이 바뀐다 -- AI 업계의 발전 속도는 다른 기술 분야와 비교불가

매 반기마다 가속하는 모델 출시

기간	출시 수	대표 모델
2023 상반기	~5개	GPT-4, Claude 1, LLaMA 1, PaLM 2
2023 하반기	~8개	GPT-4 Turbo, Claude 2, LLaMA 2, Mistral 7B, Gemini 1.0
2024 상반기	~10개	Claude 3, GPT-4o, Gemini 1.5, LLaMA 3, Phi-3
2024 하반기	~12개	o1, Claude 3.5, Gemini 2.0 Flash, DeepSeek-V3, Phi-4
2025 상반기	~15개+	o3, DeepSeek-R1, Claude 3.7, Gemini 2.5, LLaMA 4, GPT-4.5, Claude 4
2025 하반기	~15개+	GPT-5, DeepSeek-V3.1/V3.2, Claude Opus 4.5
2026 초	이미 5개+	Claude 4.6, Sonnet 4.6, Gemini 3.1 Pro, Qwen 3.5

"6개월 전 최고 모델이 지금은 중급"

2024.03

Claude 3 Opus: 불과 3개월 후 절반 비용 모델에 추월당함

Claude 3.5 Sonnet이 절반의 비용으로 Opus를 넘어섬

2024.09

o1: "생각하는 AI"로 화제 → 4개월 후 o3에 의해 "기본 수준"으로 격하

추론 모델의 세대 교체 속도가 극단적으로 빨라짐

2023.03 ~ 2025.04

GPT-4: "인간 수준 AI"라는 찬사 → 2년 후 ChatGPT에서 퇴출

GPT-4o로 대체. 최고 모델의 수명이 극적으로 단축됨

벤치마크 MMLU 점수 변화

2020

43%

GPT-3

2022

70%

GPT-3.5

2023

86%

GPT-4

2024

86.8%

Claude 3 Opus

2025~26

~90~92%

최신 모델 (포화)

새로운 벤치마크가 만들어지자마자 1~2년 내에 최고 점수에 근접하는 모델이 등장합니다. 시험지를 어렵게 만들어도, AI가 곧바로 만점에 가까운 성적을 받아버리는 상황입니다.

더 어려운 벤치마크들

📚

MMLU-Pro

선택지 10개, 추론 집약적

🧪

GPQA Diamond

대학원 수준 과학 문제

💻

SWE-bench

실제 소프트웨어 엔지니어링

🔢

AIME 2025

수학 올림피아드 수준

💡

LiveCodeBench

실시간 업데이트 코딩

SECTION 2.10

"더 크게"에서 "더 스마트하게"로

2023~2026 AI 기술 진화의 핵심 요약

🧮

무조건 키우기

MoE로 효율적 확장

모델 크기

📊

데이터 양

데이터 품질 + 합성

학습 전략

🚀

학습 시간 스케일링만

학습 + 추론 스케일링

성능 향상 축

💪

RLHF (복잡)

DPO (단순/안정)

정렬 기술

🎨

텍스트 전용

네이티브 멀티모달

입출력

AI는 더 이상 "큰 것이 좋은 것"이 아닙니다. 같은 크기라도 얼마나 똑똑하게 학습하고, 얼마나 효율적으로 추론하느냐가 성능을 결정하는 시대입니다. 스마트폰에서도 돌아가는 SLM, 한 번에 프로젝트 전체를 이해하는 긴 컨텍스트, 단계별로 논리적 사고를 하는 추론 모델 -- 이 모든 기술이 여러분의 일상 업무 도구가 되고 있습니다.

다음 장에서는 이러한 기술 원리 위에서 벌어지고 있는 AI 모델들의 치열한 경쟁,
"AI 모델 전쟁"을 살펴보겠습니다.

AI는 어떻게생각하는가