The Dawn of AI Agents: What Really Makes Them Work In Practice

원문: https://www.neweconomies.co/p/the-dawn-of-ai-agents

작성자: Sara Davison, Tyler Fisk

작성일: Oct 02, 2025

대부분의 팀이 2026년 가장 수요가 많은 스킬셋에서 놓치는 것과 AI 에이전트 구현에서 배운 교훈

NEW ECONOMIES에 오신 것을 환영합니다. 여기서는 산업을 재편하고 새로운 시장을 창출하는 기술 트렌드를 해석합니다. 미래를 구축하는 창업가, 혁신을 확장하는 운영자, 기회를 포착하는 투자자 모두에게 중요한 인사이트를 제공합니다. 75,000명 이상과 함께 구독하여 다음 트렌드를 앞서 파악하세요.

추신: 연간 유료 구독자가 되면 최고 수준의 AI 도구를 12개월 동안 무료로 이용할 수 있습니다.

이번 주 게스트 포스트:

Sara Davison과 Tyler Fisk는 매일 기술을 직접 다루는 에이전틱 AI 실무자입니다. 고객과의 작업 외에도, 에이전틱 AI를 접근 가능하고 실용적으로 만드는 데 집중하며, 사람들과 팀이 아이디어에서 실제 작동하는 에이전틱 워크플로우로 나아갈 수 있도록 가르칩니다.

1,000명 이상이 Maven의 주력 프로그램을 통해 AI 에이전트 구축을 배웠습니다. 이 프로그램에서는 4주 동안 학습자들을 단계별로 안내하여 에이전틱 워크플로우를 구축합니다. 이 과정은 실무 프로젝트에서 사용하는 프레임워크와 접근 방식을 직접 활용하여 몰입적이고 전술적입니다.

그들의 작업은 교육과 실무를 결합하여 복잡한 개념을 학생들이 시작점에 관계없이 즉시 적용할 수 있는 방법으로 분해합니다.

이번 주 에디션에서는 AI 에이전트의 과대 광고를 넘어 실제로 작동하게 만드는 것이 무엇인지 밝힙니다. Sara와 Tyler는 실제 워크플로우 구축 경험과 McKinsey의 50개 이상 엔터프라이즈 구현 연구의 새로운 인사이트를 공유합니다.

가장 성공적인 팀이 왜 코드가 아닌 업무의 숨겨진 계층 이해로 시작하는지, 평가 프레임워크가 어떻게 AI 도입의 진정한 해자가 되는지, 왜 작게 시작하는 것이 조기 일반화보다 나은지 배우게 될 것입니다.

AI 전환을 헤쳐나가는 창업가, 운영자 또는 투자자라면, 이 플레이북은 다른 사람들이 놓치는 기회를 보는 데 도움이 될 것입니다.

시작해 봅시다 🚀

교훈 1: AI 에이전트 구축은 실제로 먼저 AI 에이전트를 만드는 것이 아닙니다

실제 작업은 프롬프트 하나를 작성하기 전에 시작됩니다

McKinsey의 50개 이상의 엔터프라이즈 구현 분석은 대부분의 팀이 완전히 놓치는 것을 드러냈습니다: 성공적인 AI 에이전트는 기술적 정교함에 기반하지 않습니다. 워크플로우 이해에 기반합니다.

우리는 “AI 에이전트를 만들자”로 시작하지 않습니다. “여기서 실제로 어떻게 일이 이루어지는지 이해하자”로 시작합니다.

근본적인 단절

팀과 함께 일할 때, 우리는 반복적으로 같은 패턴을 발견합니다: 문서화된 프로세스와 실제 작업은 완전히 다른 두 가지입니다.

흔한 시나리오를 살펴보겠습니다: 간단해 보이는 워크플로우를 가진 클라이언트가 있습니다. 공식 문서는 깔끔하고 선형적인 프로세스를 보여줍니다. 하지만 팀을 관찰한 후, 우리는 다음을 발견했습니다:

실제 의사결정은 부서 간 30초짜리 비공식 대화에서 일어났습니다
중요한 평가는 수년간 개발된 패턴 인식에 의존했으며, 사람들의 머릿속에만 있고 결코 기록되지 않았습니다
시스템이 특수 사례를 표시할 때, 경험 많은 팀원들은 여러 데이터 소스와 판단을 포함하는 완전히 문서화되지 않은 해결 방법을 가지고 있었습니다

이 중 어느 것도 프로세스 문서에 없었습니다. 하지만 모두 AI 에이전트가 실제로 작동하는 데 필수적이었습니다.

대부분의 팀이 왜 잘못된 것을 만드는가

대부분의 AI 에이전트 구현이 실패하는 이유는 팀이 표면적 절차를 운영 현실로 착각하기 때문입니다. 그들은 실제 작업이 일어나는 상호 연결된 워크플로우 생태계 대신, 문서, 정상 경로 및 고립된 작업을 기반으로 에이전트를 구축합니다.

이것은 데모에서는 작동하지만 실제 상황에서는 망가지는 에이전트를 만듭니다. 기술이 문제가 아닙니다—운영 현실에 대한 이해가 문제입니다.

무엇을 구축해야 하는지 정의하는 업무 지능의 네 가지 계층

단 하나의 시스템 지시를 작성하기 전에, 실제로 업무가 어떻게 수행되는지의 네 가지 계층을 매핑해야 합니다:

assets/054f0f74c26c22cf158af8ee5c7d526e_MD5.webp]]

계층 1: 표면적 절차 - 공식 플레이북 또는 SOP (대부분의 AI 프로젝트가 멈추는 곳).

계층 2: 운영 현실 - 해결 방법과 “우리는 실제로 이렇게 한다”는 규칙으로, 경험 많은 작업자가 맥락에 따라 특정 사례를 다르게 처리하는 이유를 드러냅니다.

계층 3: 맥락적 지능 - 전문가가 수년간의 업무를 통해 개발한 직관으로, 에이전트가 실제로 잘해야 하는 것을 정의합니다.

계층 4: 조직 문화 DNA - 의사결정을 형성하는 가치와 규범으로, 에이전트가 무엇을 해야 하는지뿐만 아니라 어떻게 행동해야 하는지를 결정합니다.

실제로 작동하는 사전 구축 발견 프로세스

어떤 종류의 에이전트를 구축해야 하는지, 그리고 애초에 구축해야 하는지를 결정하는 전술적 접근법은 다음과 같습니다:

위기 시점에 참여하기

정상 운영 중에 관찰하지 마세요. 시스템이 다운되었을 때, 가장 복잡한 사례를 처리할 때, 문서화된 프로세스가 완전히 실패할 때 사용자를 따라다니세요. 그때 실제로 중요한 것이 무엇인지 볼 수 있습니다.

보이지 않는 네트워크 매핑하기

사람들이 막혔을 때 실제로 누구에게 물어보는지, 그 사람들이 무엇이라고 답하는지 문서화하세요. 비공식적인 의사소통 패턴을 추적하세요. 한 프로젝트에서, 우리는 고객 제안과 관련된 내부 의사결정 프로세스가 전혀 문서화되어 있지 않다는 것을 발견했습니다. 그 통찰은 우리가 구축한 것을 완전히 바꿨습니다.

의사결정 뒤의 “이유” 포착하기

사람들이 무엇을 하는지만 문서화하지 말고, 그들의 의사결정 트리를 이해하세요. 전문가가 “이게 뭔가 이상해”라고 말할 때, 그들이 인식하는 패턴이 무엇인지 파고드세요. 이것이 에이전트가 완료해야 하는 작업이 아니라 복제해야 하는 지능이 됩니다.

이것이 무엇을 구축하는지에 대해 바꾸는 것

이 수준에서 업무를 이해하면, 단순히 더 나은 에이전트를 구축하는 것이 아니라 근본적으로 다른 시스템을 구축합니다.

작업 자동화 대신, 업무가 수행되는 방식의 비법을 체계화합니다. 프로세스 복제 대신, 비즈니스를 이해하는 것처럼 느껴지는 의사결정 지원을 구축합니다.

더 중요한 것은, 최고 성과자들의 머릿속에 갇혀 있던 경쟁 우위를 포착하여 전체 운영에 걸쳐 확장한다는 것입니다.

이 발견 프로세스는 단순한 준비 작업이 아닙니다.

전략 작업입니다.

이러한 계층에서 발견한 것은 에이전트를 구축하는 방법뿐만 아니라 실제로 해결하고 있는 비즈니스 문제를 결정합니다.

교훈 2: 평가 우선이 에이전트 우선을 이긴다

대부분의 팀은 거꾸로 구축합니다 (그리고 일부는 무엇을 놓치고 있는지조차 모릅니다)

대부분의 팀이 취하는 접근 방식은 다음과 같습니다:

에이전트 구축 → 몇 가지 예제로 테스트 → “괜찮아 보이면” 배포 → 프로덕션에서 왜 망가지는지 의아해함.

McKinsey의 연구는 신뢰 구축과 실패 방지를 위해 평가가 중요하다고 밝혔습니다. 하지만 우리가 정말 강조하고 싶은 것은 평가가 단순한 품질 관리가 아니라, 에이전트를 실제로 작동하게 만드는 지능을 포착하는 방법이라는 것입니다.

평가란 실제로 무엇인가?

평가(또는 “evals”)는 AI 시스템이 좋은 출력을 생성하는지 측정하는 체계적인 방법입니다.

네, AI 구현에서 사용되는 품질 관리이지만, 대부분의 사람들은 거기서 멈추고 최종 체크포인트처럼 취급합니다: “이것이 출시하기에 충분히 잘 작동하는가?”

하지만 성공적인 실무자들이 이해하는 것은 다음과 같습니다:

평가 작업이 바로 에이전트 전략입니다.

대부분이 놓치는 중요한 통찰

AI 에이전트가 자율적으로 작동할 때, 단순히 낮은 성능의 위험만 있는 것이 아니라, 예측하거나 제어할 수 없는 시스템으로 조직적 책임을 만들어냅니다.

전통적인 소프트웨어는 예측 가능하게 실패합니다.

AI 에이전트는 결코 예상하지 못한 방식으로 창의적으로 실패할 수 있습니다.

잘못된 정보를 제공하는 고객 서비스 에이전트
중요한 데이터를 잘못 분류하는 문서 처리 시스템
마진을 침식하는 가격 오류를 만드는 영업 지원 도구

모두 누구도 패턴을 알아차리기 전에 대규모로 작동합니다.

대부분의 팀이 이것을 잘못 이해하는 이유

대부분의 팀은 평가를 사후 고려사항으로 접근합니다:

몇 가지 프롬프트를 작성
몇 가지 예제로 테스트
“괜찮아 보이면” 배포
프로덕션에서 왜 망가지는지 의아해함

하지만 실제로 해야 할 것은 다음과 같습니다:

도메인에서 “좋은” 것이 실제로 어떤 모습인지 정의
그 품질을 측정하는 체계적인 방법 생성
정상 경로 예제뿐만 아니라 수백 가지 시나리오에 대해 테스트
그 통찰을 사용하여 시스템의 모든 부분을 개선

이러한 접근 방식 간의 격차가 대부분의 AI 구현이 데모에서는 인상적이지만 실제 현실에서는 실망스러운 이유입니다.

assets/b2e90c17364ee71935415cd0c8b9e996_MD5.webp]]

평가 성숙도의 세 가지 수준

대부분은 더 정교한 접근 방식이 경쟁 우위를 만든다는 것을 깨닫지 못한 채 레벨 1에서 작동합니다:

레벨 1: 기본 품질 관리 (모두가 하는 것)

일반적인 정확도 지표와 간단한 통과/실패 테스트. “에이전트가 문서를 80% 정확도로 처리했는가?”

레벨 2: 비즈니스 가치 연결 (작동하는 것)

시스템 성능이 실제 비즈니스 결과와 어떻게 일치하는지 측정. “에이전트가 실제 비즈니스 의사결정에 중요한 패턴을 발견했는가?”

레벨 3: 대규모 전문성 인코딩 (경쟁 우위)

최고 성과자의 본능을 구조화된 평가 시스템으로 포착하고 확장. 이것이 평가가 전략이 되는 곳입니다.

assets/4d537a7e8b793fb69ae0eb0e7cf3753e_MD5.webp]]

레벨 3이 모든 것을 바꾸는 이유

최고 성과자가 문제가 있는 사례를 즉시 발견할 수 있는 팀과 일한다고 가정해봅시다. 그 이유를 이해하는 것은 단순히 테스트 케이스를 만드는 것이 아니라, 그 통찰이 AI 에이전트 설계에 정보를 제공하는 지능이 됩니다:

전문가 의사결정 패턴으로 인코딩된 시스템 지시사항
전문가가 실제로 사용하는 데이터 포인트를 강조하는 컨텍스트 선택
전문가 수준의 패턴 인식을 보여주는 학습 예제

이것은 순환적 지능을 만듭니다:

더 나은 평가가 더 나은 접근 방식을 드러내고, 더 나은 출력을 만들며, 더 나은 평가 기준을 가르쳐줍니다.

평가가 해자입니다…

누구나 동일한 AI 모델에 접근할 수 있으므로, 기본 기술이 해자가 아니라면 무엇이 해자일까요?

AI 역량의 상품화는 경쟁 우위가 평가 전문성으로 이동한다는 것을 의미합니다.

평가 프레임워크는 다음을 포착하고 확장합니다:

최고 성과자와 평균 성과자를 구분하는 것
모범 사례와 재앙의 차이
평범한 결과 대신 일관되게 탁월한 결과를 만드는 방법

이것은 단순한 측정이 아닙니다; 경쟁자가 복제하기 불가능한 조직 지능의 체계적 포착입니다. 이 프로세스를 통해 비밀 소스를 포착하고 확장합니다.

전술적으로 의미하는 바

→ 현재 ‘감 체크’를 통해 AI 출력을 테스트하고 작동하기를 바라고 있다면, 도메인 전문성을 포착하는 체계적인 평가 프레임워크가 필요합니다.

→ 기본 정확도 지표를 측정하고 있다면, 특정 컨텍스트에서 탁월한 성능이 실제로 어떤 모습인지 식별해야 합니다.

→ 평가를 최종 품질 검사로 취급하고 있다면, 평가가 지속적인 개선을 주도하는 순환 시스템이 필요합니다.

교훈 3: 조기 일반화는 좋은 에이전트를 죽인다

“한 번 구축하고, 어디서나 사용” 함정

McKinsey의 연구는 대규모 효율성을 주도하기 위한 재사용 가능한 구성 요소의 중요성을 강조했습니다. 우리는 동의하지만, 그리고 타이밍이 중요합니다. 대부분의 팀이 빠지는 타이밍 함정은 다음과 같습니다: 첫날부터 “재사용 가능한” 것을 구축하려고 하다가 모든 곳에서 제대로 작동하지 않는 일반적인 도구로 끝납니다.

우리는 이 패턴을 계속 봅니다: 팀이 AI의 잠재력에 흥분하여 즉시 “모든 부서에서 이것을 어떻게 작동시킬 수 있을까?”라고 생각합니다. 그들은 탁월한 솔루션 대신 광범위한 솔루션을 구축합니다.

일반적으로 시작하는 것이 평범함을 보장하는 이유

실제로 작동하는 것은 다음과 같습니다:

먼저 한 사람 또는 한 팀의 특정 워크플로우를 위해 구축하세요. 그들의 하루를 10배 더 좋게 만드세요. 그런 다음 다른 곳에 적용할 수 있는 패턴을 추출하세요.

이유는 간단합니다: 깊이 이해하지 못하는 것을 일반화할 수 없습니다. 처음부터 “모든 사람”을 위해 구축하려고 하면, 특정 누구를 위한 것도 아닌 것을 구축하게 됩니다.

지능 포착 문제

모든 고성능 워크플로우에는 특정 지능이 포함되어 있습니다: 특수 사례 처리, 맥락적 의사결정, 전문가가 수년에 걸쳐 개발한 “뭔가 이상하다”는 패턴 인식.

일반적으로 구축하면 이 지능을 완전히 놓칩니다. 명백한 것은 처리하지만 판단이 필요한 것에는 실패하는 에이전트가 됩니다.

하지만 먼저 한 명의 특정 전문가를 위해 구축하면, 그들의 의사결정 패턴을 포착합니다. 그 지능이 나중에 구축하는 모든 것의 기초가 됩니다.

이 접근 방식은 단순히 더 나은 AI 에이전트를 만드는 것이 아닙니다. 복제하기 어려운 경쟁 우위를 만듭니다. 경쟁자는 기술을 복사할 수 있지만, 최고 성과자로부터 포착한 특정 워크플로우 지능은 복사할 수 없습니다.

2025-2026 스킬셋 기회

YC의 채용 게시판은 단 3년 전 0개에서 “Forward-Deployed Engineer” 역할을 채용하는 100개 이상의 스타트업을 보여줍니다. 하지만 그들이 실제로 찾는 것은 공식 명칭이 생기기 훨씬 전부터 우리가 New AI Practitioner(최근에는 Forward Deployed AI Practitioner)라고 불러온 것입니다.

AI 에이전트를 구축하는 초기에, 우리는 같은 패턴을 계속 봤습니다: 실제 사용에서 무너지는 멋진 데모들. 컨설턴트들은 회의실에 앉아 요구사항을 수집했지만, 실제 워크플로우는 — 특수 사례와 판단 요청으로 가득 찬 — 현장에서 일어났습니다.

그래서 우리는 다르게 접근했습니다.

가장 이상한 사례를 처리하는 사람을 따라다녔습니다.
탁월해질 때까지 하나의 중요한 워크플로우를 위해 설계했습니다.

나중에서야 Palantir가 이것을 “Forward-Deployed Engineering”으로 공식화했다는 것을 깨달았습니다. 하지만 우리에게는 필요에서 태어난 것이었습니다: 업무 자체를 깊이 이해하지 않고는 탁월한 에이전틱 워크플로우를 구축할 수 없습니다.

Forward-Deployed AI Practitioner

Palantir의 forward-deployed 엔지니어는 데모를 판매하지 않았습니다 — 내부에서 업무를 이해할 때까지 팀과 함께 일했습니다. 그런 다음 템플릿이 아닌 현실을 반영하는 시스템을 가지고 돌아왔습니다. 그것이 “내 돈을 가져가라” 순간을 촉발한 것입니다.

실제로 무엇을 하는가?

비밀 소스 추출 매뉴얼이 결코 포착하지 못하는 도메인 전문가를 탁월하게 만드는 것을 발견합니다.
의사결정 로직 표면화 전문가는 종종 무언가가 잘못되었다는 것을 왜 아는지 설명할 수 없습니다. 실무자는 그러한 본능을 확장할 수 있는 패턴과 의사결정 트리로 분해합니다.
현실 기반 시스템 설계 문서에서 설계하는 대신, 임베디드 관찰에서 구축하여 실패, 예외 등을 포함하여 실제로 전개되는 워크플로우를 매핑합니다.

assets/7708066d9c22a270698e94321eddc862_MD5.webp]]

왜 이것이 “내 돈을 가져가라” 효과를 촉발하는가

이 수준의 이해에서 설계된 시스템은 일반적으로 느껴지지 않습니다. 업무를 이해하는 누군가가 구축한 것처럼 느껴집니다. 결과는 단순한 자동화가 아닙니다 — 모범 사례를 확장하고 경쟁 우위를 포착하는 능력입니다.

왜 이 역할이 지금 중요한가?

이것은 단순한 “AI 직업” 트렌드가 아닙니다. 세 가지 가속화되는 힘의 교차점에 있습니다:

AI 상품화: 모델은 널리 사용 가능 — 구현 전문성이 차별화 요소입니다.
구현 격차: 대부분의 조직은 채택에서 훨씬 뒤처져 있습니다.
워크플로우 복잡성: 현대 업무는 적절하게 설계된 AI만이 처리할 수 있는 뉘앙스로 계층화되어 있습니다.

실제로 어떤 모습인가:

Forward-Deployed AI Practitioner는 “AI가 무엇을 할 수 있는가?”로 시작하지 않습니다. “이 도메인에서 탁월함은 어떤 모습인가?”로 시작합니다 — 그리고 그것을 확장하는 시스템을 설계하기 위해 역으로 작업합니다.

그것이 실제 시장 신호입니다. 그리고 점점 더 커지고 있습니다.

Sara & Tyler의 주력 AI Agents Program은 창업가, 운영자 및 팀이 현재 위치에서 4주 안에 에이전틱 워크플로우를 구축하도록 설계되었으며, 1,000명 이상의 학습자로 검증된 방법론적 로드맵을 제공합니다. NEW ECONOMIES 독자는 2026년 프로그램 가격 인상( $995) 전에 [프로그램의 2025 년가격 ($ 895)에 대한 독점 15% 할인 코드](https://maven.com/sara-davison/scale-with-aiworkflows-foundations?utm_campaign=new-economies&utm_medium=affiliate&utm_source=maven&promoCode=NEWECONOMIES)를 누릴 수 있습니다.

이 가격에는 학습 및 적용을 더욱 강화하기 위한 향후 코호트의 무료 재수강이 포함됩니다.

assets/f94524f49577e238e1d4cb049a867be6_MD5.webp]]

Jeongsk

탐색기