CHAPTER 6

AI 팀을 지휘하라

하나의 AI에게 질문하던 시대는 끝났다.
여러 AI 에이전트로 구성된 팀을 설계하고 조율하는
하네스 엔지니어링이 핵심 역량이다.

SCROLL
6.1

프롬프트에서 하네스로:
AI 활용의 세 번째 물결

AI를 활용하는 방식은 3년 만에 세 번의 패러다임 전환을 겪었습니다. 당신이 영화감독이라고 가정합시다. 아무리 뛰어난 배우 한 명이 있어도, 대본도 없고 조명도 없고 촬영 순서도 정해지지 않았다면 좋은 영화를 만들 수 있을까요? 감독의 진짜 능력은 연기를 직접 하는 것이 아니라 -- 배우에게 역할을 부여하고, 스태프를 배치하고, 촬영 순서를 설계하고, 최종 편집까지 전체 과정을 지휘하는 데 있습니다.

세 시대의 진화

💬
2023
프롬프트 엔지니어링
손님이 셰프에게 주문을 잘 하는 기술
단일 AI에게 좋은 질문을 던져 좋은 답변을 얻는다
🤖
2024~2025
에이전트 엔지니어링
셰프에게 주방 도구와 재료를 맡기는 기술
AI에게 도구와 권한을 주어 복잡한 작업을 자율 수행하게 한다
🎼
2025~2026
하네스 엔지니어링
여러 셰프로 구성된 주방 전체를 설계하는 기술
여러 에이전트가 협업하는 시스템(하네스)을 설계하여 대규모 작업을 수행한다

하네스 엔지니어링이란?

하네스 엔지니어링(Harness Engineering)은 AI 에이전트를 감싸는 전체 환경 -- 제약 조건, 도구 접근 권한, 피드백 루프, 에이전트 간 협업 구조 -- 을 설계하는 엔지니어링 분야입니다. 2026년 2월, OpenAI는 Codex 팀이 100만 줄 이상의 프로덕션 애플리케이션을 인간이 단 한 줄의 코드도 직접 작성하지 않고 구축한 사례를 공개하면서, "하네스 엔지니어링"이라는 용어를 공식적으로 사용했습니다.

"The agent is responsible for the 'what' and the 'why.' The harness handles the 'how' and the 'where.'"
(에이전트는 '무엇을'과 '왜'를 담당하고, 하네스는 '어떻게'와 '어디서'를 처리한다.)
-- OpenAI, "Harness Engineering: Leveraging Codex in an Agent-First World"

Anthropic 역시 "Effective Harnesses for Long-Running Agents" 블로그를 통해 장시간 실행되는 에이전트를 위한 하네스 설계 원칙을 발표했습니다.

왜 지금 하네스가 필요한가?

네 가지 변화가 동시에 일어나면서, "좋은 질문 하나"로는 더 이상 충분하지 않게 되었습니다.

변화이전현재결과
모델 능력간단한 Q&A복잡한 코딩, 분석, 의사결정더 큰 작업 위임 가능
작업 복잡도단일 질문수시간~수일 걸리는 프로젝트단일 에이전트로 불충분
도구 통합텍스트만파일시스템, Git, API, DB에이전트 행동 범위 확대
품질 요구"괜찮은 답변"프로덕션 수준 코드검증 시스템 필요

주목할 숫자가 하나 있습니다.

52.8%
하네스 개선 전
66.5%
하네스 개선 후

LangChain 코딩 에이전트, Terminal Bench 2.0 -- 모델 변경 없이 하네스만 개선하여 +26% 성능 향상

6.2

하네스의 구조:
오케스트라를 만드는 세 가지 요소

오케스트라를 떠올려보세요. 바이올리니스트, 첼리스트, 플루티스트가 각자 악보를 보며 연주하고, 지휘자가 전체를 조율합니다. 하네스의 구조도 이와 똑같이 세 가지 요소로 이루어져 있습니다.

🎼 오케스트레이터 (Orchestrator)

작업 분배 · 진행 관리 · 결과 통합 -- 지휘자

🤖
에이전트 A
역할 + 스킬 + 도구
📑
에이전트 B
역할 + 스킬 + 도구
🛠
에이전트 C
역할 + 스킬 + 도구
🔬
에이전트 D
역할 + 스킬 + 도구

🎼 오케스트레이션 (Orchestration)

여러 에이전트가 어떤 순서와 방식으로 협업하는지를 정의합니다. 교향곡의 악장이 정해져 있듯이, 에이전트들의 실행 순서와 데이터 흐름을 설계하는 것입니다.

역할누가 언제 무엇을 연주(실행)할지 조율
방식파이프라인, 팬아웃/팬인, 전문가풀, 생성-검증, 계층적 위임
비유교향곡의 지휘자

🤖 에이전트 (Agent)

특정 역할을 수행하는 AI 단위입니다. 팀원 한 명을 채용할 때 직무기술서(JD)를 쓰듯이, 에이전트도 세 가지로 정의합니다.

역할에이전트의 전문 분야와 페르소나 (예: "프론트엔드 개발 전문가")
도구파일 읽기/쓰기, Git, 웹 검색, API 호출
권한"src/ 디렉토리만 수정 가능", "main 브랜치 push 불가"

📑 스킬 (Skill)

에이전트가 특정 작업을 수행할 때 따라야 하는 작업 절차와 출력 규칙입니다. 누군가에게 "알아서 해"라고 하면 결과가 들쭉날쭉하듯이, 에이전트에게도 명확한 절차서가 필요합니다.

워크플로우"1. 조사 -> 2. 분석 -> 3. 작성 -> 4. 검토"
입력 규칙대상 독자, 주제, 분량, 형식
출력 규칙마크다운 형식, 출처 명시, 7000자 이상
제약 조건추측 금지, 검증되지 않은 정보 사용 금지

각 요소를 클릭하면 상세 설명이 표시됩니다

6.3

에이전트 디자인 패턴:
다섯 가지 진형

전쟁에서 장군이 병력을 배치하는 진형이 있듯이, 에이전트 시스템에도 검증된 디자인 패턴이 있습니다. 상황에 따라 적절한 패턴을 선택하는 것이 하네스 엔지니어의 핵심 역량입니다.

📚 파이프라인
🔢 팬아웃/팬인
👩‍⚗️ 전문가 풀
✅ 생성-검증
🏢 계층적 위임

패턴 1: 파이프라인 (Pipeline)

적합한 상황: 순서가 명확한 작업 (문서 번역 -> 교정 -> 포맷팅)
에이전트들이 순차적으로 작업을 전달합니다. 공장의 컨베이어 벨트처럼, 앞 단계의 출력이 다음 단계의 입력이 됩니다.
[기획 에이전트] ---> [개발 에이전트] ---> [테스트 에이전트] ---> [배포 에이전트] 요구사항 정의 코드 구현 테스트 실행 배포 완료

패턴 2: 팬아웃/팬인 (Fan-out/Fan-in)

적합한 상황: 독립적인 작업을 동시에 수행 (여러 챕터를 동시 집필)
여러 에이전트가 병렬로 작업을 수행한 뒤, 결과를 하나로 통합합니다. 신문사에서 여러 기자가 동시에 각자의 섹션을 취재하고, 편집장이 최종본을 엮는 것과 같습니다.
┌── [리서처 A] ── 결과A ──┐ [오케스트레이터] ─┼── [리서처 B] ── 결과B ──┼── [통합 에이전트] → 최종 결과 └── [리서처 C] ── 결과C ──┘

패턴 3: 전문가 풀 (Expert Pool)

적합한 상황: 다양한 전문 분야의 질문이 들어오는 환경
요청의 성격에 따라 적합한 전문가 에이전트를 선택합니다. 종합병원의 접수처에서 증상에 따라 해당 전문의에게 배정하는 것과 같습니다.
┌── [프론트엔드 전문가] [라우터 에이전트] ───┼── [백엔드 전문가] ├── [DB 전문가] └── [보안 전문가]

패턴 4: 생성-검증 (Generator-Verifier)

적합한 상황: 높은 품질이 요구되는 작업 (코드 생성 -> 코드 리뷰)
한 에이전트가 결과물을 생성하고, 다른 에이전트가 검증합니다. 작가와 편집자의 관계처럼, 불합격 시 피드백과 함께 재작성을 요청합니다.
[생성 에이전트] [검증 에이전트] → 합격? → 완료 ↓ 불합격 피드백과 함께 재생성 요청 [생성 에이전트] (재시도)

패턴 5: 계층적 위임 (Hierarchical Delegation)

적합한 상황: 대규모 프로젝트 (전사 시스템 마이그레이션)
상위 에이전트가 작업을 분해하여 하위 에이전트들에게 위임합니다. 대기업의 조직도처럼, 총괄이 팀장에게, 팀장이 팀원에게 작업을 나누어줍니다.
[총괄 에이전트] ╱ │ ╲ [팀장 A] [팀장 B] [팀장 C] ╱ ╲ ╱ ╲ ╱ ╲ [팀원] [팀원] [팀원] [팀원] [팀원] [팀원]

패턴 비교 요약

패턴구조병렬성복잡도대표 사례
파이프라인A -> B -> C없음낮음CI/CD 파이프라인
팬아웃/팬인병렬 실행 -> 통합높음중간동시 리서치
전문가 풀라우팅 기반 선택가변중간고객 지원 챗봇
생성-검증생성 <-> 검증 루프없음중간코드 리뷰
계층적 위임트리 구조 위임높음높음대규모 프로젝트

실전에서는 이 패턴들을 조합해서 씁니다. 이 교육 자료 자체가 "팬아웃 -> 팬인 -> 생성-검증"을 결합한 사례입니다.

6.4

실전 가이드:
Claude Code로 하네스 만들기

이론은 충분합니다. 이제 직접 하네스를 만들어봅시다. Claude Code의 .claude/ 디렉토리 구조를 활용한 실전 예제를 따라해보겠습니다.

Step 1: 프로젝트 구조 설계

하네스의 뼈대는 디렉토리 구조에서 시작합니다. 각 폴더의 역할은 명확합니다. agents/에는 "누가" 일하는지, skills/에는 "어떻게" 일하는지, CLAUDE.md에는 프로젝트 전체의 규칙이 들어갑니다.

📁 프로젝트/
📁 .claude/
📁 agents/ ← 에이전트 정의 파일들
📄 researcher.md
📄 developer.md
📄 reviewer.md
📄 deployer.md
📁 skills/ ← 스킬 정의 파일들
📁 web-research/
📄 skill.md
📁 code-review/
📄 skill.md
📁 content-formatter/
📄 skill.md
📄 CLAUDE.md ← 프로젝트 전체 지시사항
📁 src/
...

Step 2: 에이전트 정의 작성

에이전트는 마크다운 파일로 정의합니다. 팀원에게 주는 역할 설명서라고 생각하면 됩니다. 핵심은 구체적인 역할과 제약을 명시하는 것입니다.

--- name: ai-historian description: "AI 역사 및 타임라인 연구 전문가" --- # AI Historian -- AI 역사/타임라인 연구 전문가 당신은 AI 산업의 역사와 변화 흐름을 추적하는 전문 연구원입니다. ## 핵심 역할 - ChatGPT 3.5 (2022.11) 이후 AI 산업의 주요 사건을 시간순으로 조사 - 각 사건의 정확한 날짜, 출처, 영향력을 기록 ## 작업 원칙 1. 정확성 최우선: 모든 날짜와 사실은 공식 발표 기반 2. 출처 필수: 각 항목에 출처 URL 포함 3. 맥락 제공: 왜 중요한지 1-2문장 설명 추가 ## 도구 활용 - WebSearch: 최신 정보 검색 - Write: 결과 파일 저장

Step 3: 스킬 정의 작성

스킬은 에이전트가 수행하는 작업 절차를 정의합니다. 업무 매뉴얼이라고 생각하면 됩니다.

--- name: web-research description: "웹 리서치 수행 스킬" --- # Web Research Skill ## 워크플로우 1. 핵심 키워드 도출 (3~5개) 2. 각 키워드로 WebSearch 실행 3. 결과에서 신뢰할 수 있는 출처 선별 4. 핵심 정보 추출 및 정리 5. 출처 목록 작성 ## 출력 규칙 - 각 정보에 출처 URL 명시 - 날짜가 있는 정보는 날짜 필수 포함 - 상충되는 정보가 있으면 양쪽 모두 기록

Step 4: 오케스트레이터 설계

오케스트레이터는 전체 워크플로우를 정의합니다. 프로젝트 관리자가 만드는 실행 계획서와 같습니다.

# AI Education Orchestrator ## 실행 워크플로우 ### Phase 1: 병렬 리서치 (팬아웃) 4개 전문 에이전트를 동시에 실행. 각 에이전트에 전달할 컨텍스트: - 대상 독자: AI 입문자 - 필수 포함: 정확한 정보, 출처 명시 - 원리 설명: 어려운 개념은 쉽게 풀어쓰기 ### Phase 2: 통합 편집 (팬인) content-assembler가 4개 산출물을 통합. 체크리스트: - [ ] 챕터 간 용어 통일 - [ ] 날짜/수치 일관성 - [ ] 중복 내용 제거 ### Phase 3: 검증 (생성-검증) fact-checker가 최종 문서를 검증.
6.5

실제 사례:
이 책이 만들어진 방법

이론을 실제로 적용한 사례를 보는 것만큼 좋은 공부는 없습니다. 사실, 지금 읽고 있는 이 교육 자료 자체가 하네스 엔지니어링으로 제작되었습니다.

에이전트 팀 구성

6명의 전문 에이전트가 각자의 역할을 맡았습니다.

📚
ai-historian
AI 역사 연구 전문가
01-timeline.md
🧠
model-analyst
모델 진화 분석가
02-model-evolution.md
📈
trend-researcher
트렌드 리서처
03-trends-and-services.md
💻
devpractice-expert
개발 방법론 전문가
04-vibe-coding-and-harness.md
✏️
content-assembler
콘텐츠 통합 편집자
AI-Education-Complete.md
🔍
fact-checker
팩트체커
fact-check-report.md

오케스트레이션: 세 패턴의 조합

이 프로젝트는 팬아웃, 팬인, 생성-검증 세 가지 패턴을 조합하여 사용했습니다. 각 Phase를 클릭해 상세 흐름을 확인하세요.

Phase 1 병렬 리서치 팬아웃

4개 전문 에이전트가 동시에 각자의 챕터를 집필합니다. 한 사람이 순차적으로 네 챕터를 쓰면 4배의 시간이 걸리지만, 병렬 실행으로 시간을 1/4로 단축했습니다.

├── ai-historian ──────➔ 01-timeline.md ├── model-analyst ─────➔ 02-model-evolution.md ├── trend-researcher ───➔ 03-trends-and-services.md └── devpractice-expert ─➔ 04-vibe-coding-and-harness.md
Phase 2 통합 편집 팬인

content-assembler가 4개 산출물을 하나로 통합합니다. 용어 통일, 날짜/수치 일관성, 중복 내용 제거를 체크합니다.

01 + 02 + 03 + 04 ──➔ content-assembler ──➔ AI-Education-Complete.md
Phase 3 품질 검증 생성-검증

별도의 fact-checker가 전체 문서를 검증합니다. 각 에이전트가 생성한 정보의 정확성을 이중으로 확인했습니다.

AI-Education-Complete.md ──➔ fact-checker ──➔ 검증 보고서 └─➔ 수정 반영
6.6

에이전트 생태계와 도구들

2026년 현재, 에이전트 시스템을 구축하기 위한 다양한 프레임워크가 경쟁하고 있습니다.

주요 에이전트 프레임워크 비교

LangChain / LangGraph
LangChain Inc.
그래프 기반 워크플로우, 강력한 상태 관리
복잡한 상태 관리가 필요한 프로덕션 에이전트
CrewAI
CrewAI
역할 기반 에이전트 팀, 직관적 API
팀 기반 워크플로우 자동화, 빠른 프로토타이핑
AutoGen
Microsoft
대화형 멀티 에이전트, 그룹 토론
그룹 의사결정, 비기술자 혼합 팀
Claude Agent SDK
Anthropic
Claude 모델 최적화, MCP 통합
Claude 기반 장시간 에이전트
OpenAI Agents SDK
OpenAI
Codex 통합, 하네스 엔지니어링 지원
OpenAI 생태계 기반 개발
프레임워크 선택 팁: CrewAI는 312줄, 4시간이면 배포까지 가능한 반면, LangGraph는 더 복잡하지만 프로덕션 환경에서 정밀한 제어가 가능합니다. 이 둘은 경쟁 관계가 아니라 조합이 가능합니다 -- LangChain으로 도구 관리를 하면서 CrewAI로 멀티 에이전트 오케스트레이션을 하는 식입니다.

MCP: AI 세계의 USB-C

에이전트가 외부 도구와 소통하려면 표준 인터페이스가 필요합니다. 그것이 바로 MCP(Model Context Protocol)입니다. USB-C처럼 하나의 표준 커넥터를 제공합니다.

🤖
AI 모델
Claude, GPT 등
MCP
🔧
외부 도구
GitHub, DB, Slack 등

MCP 주요 발전 타임라인

2024.11
Anthropic, MCP 발표
AI-도구 연결의 표준 프로토콜 제안
2025.11
MCP 사양 대규모 업데이트
비동기 연산, 무상태 모드, 서버 ID, 공식 확장 기능 추가
2025.12
Agentic AI Foundation(AAIF) 설립
Anthropic이 MCP를 Linux Foundation 산하 재단에 기증. OpenAI, Block과 공동 설립
2026 현재
업계 표준으로 자리매김
OpenAI, Google DeepMind, Microsoft 등 모두 채택. 75개 이상 공식 커넥터 운영

엔터프라이즈 에이전트 시스템 동향

대형 기술 기업들도 앞다투어 에이전트 플랫폼을 출시하고 있습니다.

Salesforce Agentforce
CRM 데이터와 연결된 고객 서비스 에이전트 플랫폼
Microsoft Copilot Studio
기업용 커스텀 에이전트 빌더
Google Vertex AI Agent Builder
기업 데이터 기반 에이전트 구축 도구
OpenAI Codex
대규모 소프트웨어 개발 에이전트
6.7

미래: 하네스 엔지니어라는
새로운 커리어

2026년, 하네스 엔지니어(Harness Engineer)라는 새로운 직무가 등장하고 있습니다. 코드를 직접 작성하던 개발자가 AI 팀의 감독으로 역할을 전환하는 것입니다.

역할의 전환

💻 코드를 직접 작성
🐛 버그를 직접 수정
📝 테스트를 직접 실행
📄 문서를 직접 작성
🎼 에이전트가 작업할 환경을 설계
🔄 피드백 루프 구축으로 자동 수정
✅ 자동 검증 파이프라인 설계
🤖 문서 생성 워크플로우 설계

하네스 엔지니어에게 필요한 다섯 가지 역량

가장 중요한 것은 "코딩 실력"이 아니라 "설계와 조율 능력"입니다. 코드를 10년간 짠 시니어 개발자와 같은 출발선에서 시작할 수 있는 새로운 분야입니다.

1

시스템 설계 능력

에이전트 간 협업 구조를 설계하는 아키텍처 능력

2

프롬프트 엔지니어링

에이전트의 역할과 제약을 명확히 정의하는 능력

3

품질 관리 마인드

생성-검증 루프, CI/CD 파이프라인 설계

4

도메인 지식

에이전트가 작업할 분야에 대한 깊은 이해

5

디버깅 사고력

에이전트가 실패했을 때 하네스의 어떤 부분이 문제인지 파악

"인간의 역할은 코드를 작성하는 것이 아니라, 환경을 설계하고, 의도를 명시하고, 피드백 루프를 구축하는 것이다."
-- OpenAI Codex 팀, Harness Engineering
6.8

핵심 정리

개념핵심 정의기억할 키워드
하네스 엔지니어링AI 에이전트 팀을 감싸는 환경을 설계하는 기술에이전트, 스킬, 오케스트레이션, 피드백 루프
에이전트특정 역할을 수행하는 AI 단위 (역할 + 도구 + 권한)팀원
스킬에이전트의 작업 절차와 출력 규칙업무 매뉴얼
오케스트레이션에이전트 간 협업 순서와 방식지휘
MCPAI와 외부 도구를 연결하는 표준 프로토콜USB-C
하네스 엔지니어에이전트 팀의 환경과 워크플로우를 설계하는 직무AI 감독

이 챕터에서 가져갈 세 가지 인사이트

1

하네스가 모델보다 중요하다

같은 모델이라도 하네스 설계에 따라 성능이 52.8%에서 66.5%로 뛸 수 있습니다.

2

패턴을 조합하라

다섯 가지 디자인 패턴은 단독으로 쓰기보다 상황에 맞게 조합할 때 진가를 발휘합니다.

3

코드보다 설계가 먼저다

하네스 엔지니어의 핵심 역량은 코딩이 아니라 시스템 설계와 조율 능력입니다.