AI 생산성 향상 추정하기

원문: Estimating AI productivity gains from Claude conversations

2025년 11월 25일

개요

Claude와의 실제 대화를 통해 AI가 노동 생산성에 미치는 영향에 대해 무엇을 알 수 있을까요? 개인정보 보호를 위한 분석 방법을 사용하여 Claude.ai의 실제 대화 10만 건을 샘플링하고, AI 지원이 있는 경우와 없는 경우 이러한 대화의 작업 완료에 소요되는 시간을 추정하여 경제 전반에 대한 생산성 영향을 연구했습니다. Claude의 추정에 따르면, 이러한 작업은 AI 지원 없이 완료하는 데 평균 약 90분이 걸리며, Claude는 개별 작업을 약 80% 가속화합니다.

이러한 추정치를 외삽하면 현재 세대의 AI 모델이 향후 10년간 미국 노동 생산성 성장률을 연간 1.8% 증가시킬 수 있음을 시사합니다—이는 최근 몇 년간의 성장률의 약 두 배입니다. 그러나 이는 미래에 대한 예측이 아닙니다. 채택률이나 훨씬 더 강력한 AI 시스템에서 나올 더 큰 생산성 효과를 고려하지 않았기 때문입니다.

우리의 분석에는 한계가 있습니다. 특히 주목할 점은 Claude와의 대화 외에 사람들이 작업에 소비하는 추가 시간(Claude의 작업 품질이나 정확성을 검증하는 시간 포함)을 고려할 수 없다는 것입니다. 그러나 AI 모델의 시간 추정 능력이 향상됨에 따라 이 연구 노트의 방법론이 AI가 실제 업무를 어떻게 형성하는지 이해하는 데 점점 더 유용해질 것으로 생각합니다.

다음은 우리 결과의 더 상세한 요약입니다:

10만 건의 실제 대화에서 Claude는 AI가 작업 완료 시간을 80% 단축한다고 추정합니다. 우리는 Claude를 사용하여 익명화된 Claude.ai 대화 기록을 평가하고 AI의 생산성 영향을 추정합니다. Claude의 추정에 따르면, 사람들은 일반적으로 평균적으로 완료하는 데 1.4시간이 걸리는 복잡한 작업에 AI를 사용합니다. 작업을 O*NET 직업 분류 및 BLS 임금 데이터와 매칭하여, 이러한 작업이 달리 인간 노동으로 $55의 비용이 들 것으로 추정합니다.
작업의 추정 범위, 비용 및 시간 절감은 직업에 따라 크게 다릅니다. Claude의 추정에 따르면, 사람들은 거의 2시간이 걸리는 법률 및 관리 작업에 Claude를 사용하지만, 30분만 소요되는 음식 준비 작업에도 사용합니다. 의료 지원 작업은 90% 더 빠르게 완료할 수 있는 반면, 하드웨어 문제는 56%의 시간 절감을 보입니다. 그러나 이는 Claude.ai에서의 대화를 넘어서 이러한 작업에 사람들이 소비할 수 있는 시간을 고려하지 않으므로, 이러한 추정치가 현재 생산성 효과를 어느 정도 과대평가할 수 있다고 생각합니다.
이러한 결과를 경제에 외삽하면, 현재 세대 AI 모델은 향후 10년간 미국 노동 생산성 연간 성장률을 1.8% 증가시킬 수 있습니다. 이는 미국이 2019년 이후 본 연간 성장률을 두 배로 만들 것이며, 우리의 추정치를 최근 추정치의 상단에 위치시킵니다. 작업 수준의 효율성 이득에 대한 Claude의 추정치를 전제로, 우리는 표준 방법을 사용하여 향후 10년간 미국 노동 생산성의 연간 1.8% 증가를 암시적으로 계산합니다. 그러나 이 추정치는 AI 모델의 향후 개선(또는 현재 기술의 보다 정교한 사용)을 고려하지 않으며, 이는 AI의 경제적 영향을 크게 증폭시킬 수 있습니다.
AI가 일부 작업을 가속화함에 따라 다른 작업이 병목 현상이 될 수 있습니다: 우리는 일부 작업에서 큰 속도 향상을 보지만, 동일한 직업 그룹 내에서도 다른 작업에서는 훨씬 작은 향상을 봅니다. AI가 덜 차이를 만드는 경우, 이러한 작업이 병목 현상이 되어 잠재적으로 성장의 제약으로 작용할 수 있습니다.

이는 AI의 시간 경과에 따른 경제적 영향을 이해하기 위한 새로운 관점을 제공하며, 우리는 앞으로 Economic Index의 일부로 이를 추적할 것입니다: 실제 Claude 대화를 기반으로 이러한 추정치를 계산하면 AI 생산성을 이해하는 새로운 관점을 얻을 수 있습니다. 이는 좁은 영역의 실험실 연구나 더 거친 통찰력을 제공하는 정부 통계와 같은 다른 접근 방식을 보완합니다. 우리는 역량과 채택이 계속 진행됨에 따라 이러한 문제에 대한 진화하는 그림을 얻기 위해 시간이 지남에 따라 이러한 추정치가 어떻게 변하는지 추적할 것입니다.

우리의 방법과 주요 결과의 개요입니다. Claude의 추정치를 검증하는 방법, 우리가 하는 가정, 그리고 분석의 한계는 아래를 참조하세요.

서론

Anthropic Economic Index의 일환으로, 우리는 사람들이 다양한 작업, 산업 및 장소에서 Claude를 어떻게 사용하는지 문서화했습니다. 우리는 사용의 폭을 포착했습니다—사람들이 법률, 과학 및 프로그래밍 작업에 Claude를 어떻게 사용하는지—하지만 깊이는 포착하지 못했습니다. 사람들이 Claude를 사용하는 작업은 얼마나 실질적이며, Claude는 그들에게 얼마나 많은 시간을 절약해 줄까요?

현재 버전의 Economic Index는 이러한 작업 내 이질성을 포착할 수 없습니다—예를 들어, 5분이 걸리는 보고서 작성 작업과 5일이 걸리는 보고서 작성 작업을 구별하거나, 오후가 걸리는 재무 모델링 작업과 몇 주가 걸리는 재무 모델링 작업을 구별할 수 없습니다. 이는 AI의 경제적 효과를 평가하기 어렵게 만듭니다: 소프트웨어 개발자가 Claude를 사용하여 하루에 10개의 풀 리퀘스트를 작성할 수 있지만, 9개가 사소한 문서 업데이트이고 1개가 중요한 인프라 변경인 경우, 단순히 Claude로 수행된 작업 수를 세는 것만으로는 요점을 놓칩니다.

그뿐만 아니라, 모델 역량이 향상됨에 따라 그들이 더 가치 있는 작업을 하는지 이해하고 싶습니다. AI가 업무와 생산성을 어떻게 재편하는지 이해하려면, Claude가 처리하는 어떤 작업뿐만 아니라 그 작업과 시간 절감이 얼마나 실질적인지 알아야 합니다.

여러 그룹이 소프트웨어 엔지니어링 작업, 글쓰기 및 고객 서비스를 포함한 좁은 영역에서 생산성 이득을 측정하기 위한 무작위 대조 시험을 수행하기 시작했습니다. METR의 AI가 긴 작업을 완료하는 능력 측정 작업은 AI 시스템이 독립적으로 확장되고 다단계 도전을 다룰 수 있음을 입증했습니다. 그러나 이러한 평가는 광범위한 실제 사용보다는 좁은 문제 세트를 고려합니다. AI의 경제에 대한 전반적인 영향을 평가하려면 수백 또는 수천 개의 실제 AI 애플리케이션을 분석할 수 있는 방법이 필요합니다.

이 보고서는 그 목표를 향한 첫 번째 단계를 밟습니다. Claude를 사용하여 Claude가 처리하는 작업을 인간이 완료하는 데 걸리는 시간을 추정하고, Claude와 인간이 함께 걸린 시간과 비교하여 AI가 절약한 시간을 계산합니다. AI 모델은 사용자의 전문성, 워크플로 및 제약에 대한 컨텍스트가 부족하지만, 모델 추정 시간이 소프트웨어 엔지니어링 작업 데이터셋에 대해 인간 추정 완료 시간 및 시간 추적 결과와 비교하여 유망한 정확도를 보임을 발견했습니다.

다음에서는 작업 수준의 시간 절감을 추정하는 방법론을 제시하고, 실제 데이터에 대해 우리의 접근 방식을 검증한 다음, 이러한 추정치를 사용하여 AI로부터 가장 큰 생산성 이득을 보이는 작업과 직업을 평가합니다. 그런 다음 AI가 경제 전반에 채택되기 시작함에 따라 작업 수준 추정치가 총 생산성에 대해 무엇을 시사하는지 탐구합니다.

작업 길이 및 시간 절감 추정

개인정보 보호 분석 시스템을 사용하여 Claude.ai(Free, Pro 및 Max 티어)의 대화 기록 100,000건을 분석하여 Claude가 처리하는 작업의 길이와 시간 절감을 측정했습니다. 각 작업에 대해 두 가지 핵심 추정치를 생성했습니다:

AI 없는 시간 추정치: 인간 전문가가 AI 지원 없이 작업을 완료하는 데 필요한 시간(시간)
AI와 함께하는 시간 추정치: AI 지원으로 작업을 완료하는 데 걸린 시간

각 대화에 대해 Claude를 사용하여 이러한 추정치를 생성했습니다. Economic Index 방법론에 따라, 각 작업에 대한 시간 추정치의 중앙값을 취하여 이러한 개별 채팅 대화를 O*NET 분류법의 작업으로 집계했습니다. 이를 통해 이러한 시간 추정치가 경제 내 작업 및 직업에 걸쳐 어떻게 다른지 탐구할 수 있었습니다. 분류 프롬프트는 부록에 있습니다.

실제 대화 기록을 분석하면 작업 내 변동을 고려할 수 있습니다. 예를 들어, 제조 장비 설계 작업의 전체 비율이 고정되어 있더라도, 대화 기록 수준의 정보를 통해 사람들이 시간이 지남에 따라 AI로 더 복잡하고 더 긴 시간 규모의 프로젝트를 다루거나 더 큰 시간 절감을 달성하는지 볼 수 있습니다. 우리의 Economic Index는 시간이 지남에 따라 이러한 추정치가 어떻게 진화하는지 추적하고, 연구자들이 자신의 예측과 결론을 내릴 수 있는 집계 데이터셋을 공유할 것입니다.

검증

작업 기간을 추정하는 것은 인간에게 악명 높게 어렵습니다. AI 모델은 작업의 더 넓은 맥락에 대한 중요한 컨텍스트가 부족하기 때문에 훨씬 더 어려운 작업을 가지고 있습니다(하지만 memory 및 외부 통합과 같은 기능이 더 포괄적으로 됨에 따라 이 컨텍스트가 시간이 지남에 따라 증가할 것으로 예상합니다). Claude의 추정치가 유익한지 평가하기 위해 두 가지 검증 분석을 수행했습니다.

자체 일관성 테스트: 먼저 Claude가 다른 대화 샘플 또는 프롬프트 변형에 걸쳐 작업 길이에 대한 안정적인 추정치를 생성하는지 평가합니다.

우리는 여러 프롬프트 변형을 만듭니다—예를 들어, “적절한 기술을 가진 직원”과 “숙련된 전문가”에 대해 묻는 것—프롬프트가 표현되는 방식에 추정치가 얼마나 민감한지 평가하기 위해. 우리는 사용자가 우리와 이러한 대화를 공유하는 데 동의한 각 변형에 대해 1,800개의 대화를 분석하고 프롬프트 변형 간의 상관관계를 계산했습니다. 결과는 변형 간 로그 스케일 상관관계 r=0.89–0.93으로 강한 자체 일치를 보였습니다.

Claude의 추정 인간 완료 시간은 프롬프트 변형 간에 높은 상관관계를 보입니다. 프롬프트 1은 Claude에게 “적절한 기술을 가진 직원”이 완료하는 데 걸리는 시간을 추정하도록 요청하고 프롬프트 2는 “관련 분야에서 유능한” “인간 작업자”에 대해 묻습니다. 두 프롬프트는 0.89의 로그 스케일 상관관계를 보여 높은 일치를 나타냅니다. 연구 목적으로 우리와 공유하는 데 동의한 사용자의 Claude.ai 대화 기록에 대해 분석이 수행되었습니다.

외부 벤치마킹: 모델의 예측이 현실과 잘 일치하지 않으면 자체 일치는 중요하지 않습니다. 이를 확인하기 위해, 개발자 추정치와 실제 추적된 완료 시간이 모두 포함된 오픈 소스 저장소의 JIRA 티켓에서 수집한 수천 개의 실제 소프트웨어 개발 작업 데이터셋에 대해 Claude의 시간 추정 능력을 테스트했습니다.

이는 Claude에게 매우 도전적인 작업입니다. Claude는 JIRA 티켓의 제목과 설명만 받는 반면, 인간 개발자는 코드베이스와 티켓에 대한 전체 컨텍스트를 가지고 있으며 유사한 작업을 완료하는 데 걸리는 시간을 본 적이 있기 때문입니다. 이 벤치마크의 1000개 작업 하위 집합에서:

인간 개발자 자체는 실제 시간과 ρ=0.50 Spearman 상관관계를 달성했으며, 로그 값에 대해 r_log=0.67의 Pearson 상관관계를 보여 중간 강도의 상관관계를 나타냅니다(두 값 모두 높을수록 좋습니다).
Claude Sonnet 4.5는 ρ=0.44 및 r_log=0.46을 달성했습니다
작업 및 실제 시간 길이의 10가지 예제가 포함된 Claude Sonnet 4.5는 더 나쁜 ρ=0.39를 보였지만 r_log=0.48로 개선되었습니다

이 분석은 Claude의 추정치가 소프트웨어 개발자 자신의 추정치보다 약간만 나쁜 방향성 정보를 제공함을 시사합니다. 그러나 우리는 Claude의 추정치가 인간보다 훨씬 더 압축되어 있음을 관찰합니다—짧은 작업에 대해 비교적 긴 시간을 예측하고 그 반대도 마찬가지입니다—그리고 전반적으로 과대 추정에 더 취약합니다. 이는 작업 간의 작업 길이의 실제 차이가 우리가 보고하는 것보다 클 수 있으며 실제 작업 길이가 약간 짧을 수 있음을 시사합니다. 전반적으로, 이러한 발견은 모델 예측이 적어도 이 영역에서 실제 결과와 의미 있는 상관관계를 가지고 있음을 보여주며, 한 작업을 다른 작업과 비교하거나 시간 경과에 따른 변화를 추적하는 데 유용합니다. 또한 Claude Sonnet 4와 비교하여 Claude Sonnet 4.5에서 더 높은 상관관계를 관찰하며, 이는 모델 기능이 향상됨에 따라 이러한 추정치가 계속 개선될 수 있음을 시사합니다.

개발자 및 Claude 추정치와 소프트웨어 엔지니어링 작업에 소요된 실제 시간의 상관관계입니다. 왼쪽: 개발자의 초기 시간 추정치와 최종 시간 추적 결과의 상관관계입니다. 개발자는 전체 코드베이스에 익숙하며 요청 뒤의 전체 컨텍스트와 유사한 작업이 얼마나 걸렸는지 이해합니다. 가운데: JIRA 티켓의 작업 제목과 설명만 주어진 Claude Sonnet 4.5의 추정치와의 상관관계입니다. 오른쪽: 보정을 위해 프롬프트에 10개의 예제가 주어진 Claude Sonnet 4.5의 추정치와의 상관관계입니다. 전반적으로 Claude의 추정치는 개발자와 유사한 방향성 상관관계를 가지고 있습니다: Spearman의 ρ=0.44, 개발자의 ρ=0.50과 비교하여, 하지만 Claude는 짧은 작업을 크게 과대 추정하고 긴 작업을 과소 추정합니다. 축은 로그(밑 10) 스케일입니다. 오차 막대는 빈당 95% CI입니다.

결과

먼저 위의 방법을 사용하여 작업 수준 절감을 추정한 다음 이를 경제 전체 효과 추정치로 집계합니다.

작업 수준 절감

9개의 다른 작업에 대한 Claude의 추정 작업 시간, 직업의 평균 시간당 임금, 암시적 작업 비용 및 시간 절감입니다. 작업 시간은 전문가가 AI 지원 없이 작업을 수행하는 데 걸리는 시간을 예측하도록 Claude에게 요청하여 추정됩니다. 시간당 임금은 직업 고용 및 임금 통계(OEWS) 2024년 5월 데이터에서 파생됩니다. 작업 비용은 작업 시간에 시간당 임금을 곱하여 계산됩니다. 시간 절감은 인간이 작업을 완료하는 데 걸린 시간을 추정하고 1 - time_with_ai / time_without_ai를 계산하여 계산됩니다.

예제 작업은 다양한 시간 절감을 보여줍니다

직업 내 개별 작업을 보면 AI가 어디에서 어떻게 시간 절감을 제공하는지에 대한 구체적인 예를 제공합니다. 가장 극단적인 경우, 우리는 사용자가 Claude가 4.5시간이 걸릴 것으로 생각하는 커리큘럼 개발 작업을 단 11분 만에 완료하는 것을 봅니다. 이러한 작업은 교사의 평균 시간당 임금을 기준으로 $115의 암시적 노동 비용을 가지고 있습니다.

사람들은 또한 AI를 사용하여 송장, 메모 및 기타 문서(적어도 Claude가 처리하도록 요청받는 문서 유형의 경우)를 작성하는 데 걸리는 시간의 87%를 절약합니다. 마지막으로, AI는 일반적으로 임금으로 $31의 비용이 드는 작업에 대해 재무 데이터를 해석하는 것과 같은 재무 분석가 작업에서 80%의 시간을 절약합니다.

작업 길이는 직업에 따라 극적으로 다릅니다

인간 시간 추정치는 Claude가 직업에 따라 매우 다른 길이의 작업을 처리함을 보여줍니다. 아래 플롯에서 우리는 Claude가 사용되는 작업의 하위 집합 중 각 직업 범주의 평균을 보여줍니다¹. Claude가 사용되는 평균 관리 작업(예: 투자 선택)은 인간이 완료하는 데 2.0시간이 걸리는 것으로 추정되며, 법률(1.8시간), 교육(1.7), 예술/미디어 작업(1.6)이 그 뒤를 잇습니다. 스펙트럼의 다른 쪽 끝에서 음식 준비 작업(예: 메뉴 항목 계획 또는 가격 책정), 설치/유지 보수 및 운송 작업은 모두 평균 0.3-0.5시간이 걸려 더 제한된 작업 또는 대기 시간이 적은 작업을 시사합니다. Claude의 시간 추정치가 긴 작업을 과소 추정하고 짧은 작업을 과대 추정하는 경향이 있다는 점을 고려하면, 이러한 차이는 실제로 훨씬 더 클 수 있습니다.

SOC 주요 그룹에 대한 Claude의 시간 추정치에서 파생된 다양한 수치입니다. 인간 시간 추정치는 직업에 걸쳐 상당히 다릅니다 — 사람들은 인간이 지원 없이 약 2시간이 걸리는 것으로 추정되는 관리 및 법률 작업에 Claude를 사용하는 반면, 의료 지원 및 음식 준비 작업은 평균 약 30분입니다. 직업 범주의 평균 시간당 임금은 OEWS 2024 데이터에서 검색됩니다. 평균 작업 비용은 각 직업의 시간당 임금에 중앙값 작업 시간을 곱하고 샘플에서 각 작업의 유병률로 가중치를 부여한 평균을 계산하여 계산됩니다. 시간 절감은 1 - time_with_ai / time_without_ai를 통해 계산됩니다.

비용 추정치는 AI의 영향에서 이러한 변동을 증폭시킵니다: 가장 긴 시간 추정치를 가진 작업은 또한 가장 높은 노동 비용을 가진 작업인 경향이 있습니다. 우리는 각 작업의 중앙값 시간에 OEWS 2024년 5월 데이터의 관련 직업의 평균 임금을 곱하여 이러한 비용 추정치를 계산합니다. 평균 관리 작업은 전문가에게 $133 의비용이드는반면법률작업은$ 119, 음식 준비 및 서빙과 관련된 작업은 $8 입니다 . 비즈니스및재무작업은평균$ 69이고 컴퓨터 및 수학 작업은 평균 $82입니다.

우리가 관찰하는 모든 작업에 걸쳐, 각 대화에서 작업을 수행할 전문가를 고용하는 데 전문 노동으로 중앙값 $54의 비용이 드는 작업을 Claude가 처리하는 것으로 추정합니다. 물론, 현재 모델의 실제 성능은 많은 작업에 대해 인간 전문가보다 나쁠 가능성이 높지만, 최근 연구는 다양한 애플리케이션에 걸쳐 격차가 좁혀지고 있음을 시사합니다.

주요 직업 그룹에 걸쳐, 우리는 샘플의 작업/직업 중 평균 시간당 임금과 Claude가 처리하도록 요청받는 작업의 인간-시간-등가 기간 사이에 양의 상관관계를 관찰합니다. 예를 들어, 관리 및 법률 직업 범주는 평균 시간당 임금 측면에서 분류의 상단에 위치합니다—이는 복잡한 지식 작업에서 Claude의 강점과 일치합니다.

직업 범주의 평균 시간당 임금과 샘플의 평균 Claude 추정 작업 기간 간의 상관관계입니다. 더 높은 임금 직업 범주(예: 관리 및 법률)는 샘플에서 더 복잡한 사용을 가진 작업을 가지고 있습니다(r=0.8).

시간 절감은 직업에 걸쳐 매우 불균등합니다

우리의 인간 시간 및 비용 추정치는 사람들이 AI로 다루는 작업의 크기를 포착합니다. 그러나 시간 절감—AI로 작업이 얼마나 더 빨리 완료되는지에 대한 Claude의 추정치—은 이러한 작업에 AI를 사용함으로써 얻을 수 있는 생산성 이득을 반영합니다.

중앙값 대화는 84%의 시간 절감을 경험한 것으로 추정되지만, 작업 및 범주에 걸쳐 상당한 변동을 봅니다. 예를 들어, 진단 이미지 확인 작업은 20%의 시간 절감만 보이는데, 이는 이미 AI 지원 없이 전문가가 빠르게 수행할 수 있는 작업이기 때문일 것입니다. 대조적으로, 보고서에서 정보를 컴파일하는 작업은 약 95%의 시간 절감을 보이는데, AI 시스템이 사람보다 훨씬 빠르게 정보를 읽고, 추출하고, 인용할 수 있기 때문일 것입니다. 전반적으로, 작업별로 절약된 시간의 분포는 50-95% 범위 내에 집중되어 있으며, 80-90% 사이에서 정점을 찍습니다.

이러한 큰 시간 절감은 사람들이 할 수 있는 것보다 훨씬 빠르게 읽고 쓸 수 있는 Claude의 능력과 일치합니다. 그러나 우리의 접근 방식은 사람들이 Claude의 출력을 완성된 상태로 다듬기 위해 수행해야 하는 추가 작업이나 여러 세션에 걸쳐 작업 제품을 계속 반복하는지 여부를 고려하지 않으며, 이 둘 다 더 작은 시간 절감을 초래할 것입니다. 과거의 무작위 대조 시험은 일반적으로 다양한 애플리케이션에 걸쳐 56%, 40%, 26%, 14% 및 심지어 음수 시간 절감을 포함하여 더 작은 시간 절감을 발견했습니다—아마도 이러한 효과 때문이거나 이러한 연구가 이전 세대의 모델을 조사했기 때문일 것입니다.

샘플의 O*NET 작업에 걸친 시간 절감의 밀도 플롯입니다. Claude의 추정 시간 절감은 샘플의 작업에 걸쳐 불균등하며 대부분 50~95% 사이입니다. 전체 중앙값 절감은 81%입니다. 시간 절감은 1 - time_with_ai / time_without_ai로 계산됩니다. 우리의 추정치는 채팅 창 외부에서 Claude의 출력을 다듬는 데 소요된 시간을 고려하지 않습니다.

작업 수준 효율성 이득에서 경제 전체 생산성 효과로

위의 추정치는 작업 수준에서 AI 주도 생산성 이득을 포착합니다. 거시적 수준의 영향을 이해하기 위해, 이 섹션은 Claude의 추정치에 따라 이러한 이득이 어떻게 전체 경제에 걸쳐 집계될 수 있는지 모델링합니다.

방법론

경제 전체 생산성 효과를 추정하기 위해, 우리는 작업 수준의 효율성 이득을 더 넓은 미국 경제로 집계할 수 있게 해주는 표준 방법인 Hulten의 정리를 사용합니다². Acemoglu (2024)의 “기준선” 접근 방식과 마찬가지로, 우리는 노동 생산성의 암시적 증가를 작업 수준 생산성 이득에 대한 가중 평균으로 모델링합니다—이는 AI 채택과 관련된 총 요소 생산성(TFP) 증가의 결과로 자본 투자가 증가할 것이라고 암시적으로 가정하는 모델링 선택입니다. 이 프레임워크에서 암시적 TFP 증가는 노동 생산성 이득에 소득의 노동 몫을 곱한 것입니다³.

작업 구성: 각 직업에 대해 O*NET에서 작업 작업 목록을 얻습니다. 그런 다음 Claude를 사용하여 작업자가 각 작업에 소비하는 시간의 비율을 추정합니다. 예를 들어, Claude는 프로그래머가 시간의 23%를 코드 작성 및 유지 관리에, 15%를 프로그램 분석 및 재작성에, 더 작은 비율을 테스트, 문서화 및 회의에 소비한다고 추정합니다.

작업 수준 생산성 개선: 이전 섹션에서 각 작업이 AI 지원으로 얼마나 더 빠르게 완료되는지 계산하는 데 사용할 수 있는 추정치를 제공했습니다. AI 없는 시간과 AI 와 함께하는 시간 사이의 로그 차이를 취하여 생산성 개선 값을 생성하고, 샘플에서 관찰되지 않은 작업에는 보수적으로 null 개선을 할당합니다.

경제 전체 추정치: 우리는 두 가지 요소를 사용하여 각 작업의 암시적 생산성 이득에 경제적 중요성으로 가중치를 부여합니다: (i) Claude가 직업이 해당 작업에 소비하는 것으로 추정하는 시간의 비율(위와 같음), 및 (ii) 직업의 미국 총 임금 청구서의 몫(해당 직업 범주에 고용된 사람 수에 평균 임금을 곱한 다음 모든 직업에 걸친 총 임금 청구서로 나눈 값). 총 임금 청구서의 경우 OEWS 2024년 5월 데이터를 사용합니다. 이 접근 방식은 암시적으로 Claude가 생성하는 시간 추정치가 각 작업의 모든 인스턴스에 걸쳐 신뢰할 수 있는 평균을 나타내며, Claude 또는 유사한 AI 시스템이 미국 경제 전체에 채택될 것이라고 가정합니다.

미국 경제 전체 노동 생산성 영향: 상위 10개 직업. 전반적으로, Claude의 추정치는 현재 AI 시스템이 우리가 관찰하는 모든 작업에 보편적으로 채택된다고 가정할 때 미국 노동 생산성의 1.8% 연간 증가(점선)를 암시하며, 소프트웨어, 관리, 마케팅 및 고객 서비스 작업에 의해 주도됩니다. 이는 암시적 TFP의 1.08% 연간 증가에 해당합니다. 평균 *ln(시간 추정치 비율)*은 각 직업의 모든 작업에 걸친 시간 가중 생산성 이득을 나타내며, 시간 추정치 비율 = AI와 함께하는 시간 / AI 없는 시간입니다. 노동 통계는 OEWS 2024 데이터에서 파생됩니다.

발견

AI가 미국 경제 전체에 보편적으로 채택되기까지 10년을 가정하고—현재 모델을 사용하여—Claude의 추정치가 미국 노동 생산성의 연간 1.8% 증가를 암시한다고 계산합니다. 이는 1947년 이후 연간 평균 2.1%, 2019년 이후 1.8%인 현재 장기 성장률을 거의 두 배로 늘릴 것입니다. 노동의 총 요소 생산성 몫이 0.64라고 가정하면, 이는 전체 총 요소 생산성의 연간 1.1% 증가를 암시합니다. TFP 성장률이 2000년대 초반 이후 1% 미만인 경향이 있다는 점을 고려하면, 이러한 추정치는 현재 AI 시스템의 광범위한 배치만으로도 성장률이 두 배가 될 수 있음을 시사합니다: 1990년대 후반과 1960년대 및 1970년대의 비율을 달성하는 것입니다⁵.

작업 수준 효율성 이득에 의해 암시되는 총 노동 생산성의 이 추정 증가는 최근 생산성에 대한 AI의 잠재적 영향 추정치의 범위 내에 있지만, 상단에 위치합니다(Filippucci, Gal, and Schief, 2024).

중요하게도, 이 연습은 AI 역량(및 AI 사용에서 인간의 효과성)이 샘플을 가져온 시점과 동일하게 향후 10년간 유지된다고 가정합니다. 그러나 이것은 유지될 것 같지 않습니다: 우리는 AI가 앞으로 몇 년 동안 계속 빠르게 개선될 것이라고 생각합니다.

따라서 이 추정치는 실제로 발생할 가능성이 가장 높은 생산성에 대한 영향에 대한 예측이 아니라 현재 사용 패턴을 기반으로 무엇이 일어날 수 있는지 탐구하는 연습으로 받아들여져야 합니다. 다른 작업에서 작성했듯이, 우리는 AI가 상당한 노동 시장 혼란을 일으킬 가능성에 대해 매우 경계하고 있으며, 이는 AI로 인한 더 큰 생산성 증가와 관련될 가능성이 높습니다. 모델이 발전함에 따라, 이는 AI의 생산성 효과에 대한 대략적인 하한을 나타낼 수 있지만, 우리의 추정치는 채택의 불균등성을 고려하지 않으며, 이는 단기적으로 실제 생산성 이득을 감소시킬 수 있습니다.

비농업 비즈니스 부문의 노동 생산성 성장입니다. 차트는 노동 생산성의 전년 대비 백분율 변화의 5년 이동 평균을 보여줍니다. 우리는 1960년대의 거의 3%에서 지난 몇 년의 약 1.5%로 일반적인 감소를 봅니다.

일부 작업 및 직업이 우리 데이터에서 다른 작업보다 훨씬 더 자주 나타난다는 사실을 반영하여, 우리는 AI에 기인할 수 있는 총 노동 생산성에 대한 직업의 기여에서도 유사한 현상을 관찰합니다. 소프트웨어 개발자가 가장 많이 기여합니다(19%). 일반 및 운영 관리자(약 6%), 시장 조사 분석가 및 마케팅 전문가(5%), 고객 서비스 담당자(4%) 및 중등학교 교사(3%)가 상위 5위를 차지합니다.

대조적으로, 레스토랑, 의료 서비스, 건설 및 소매는 전체 생산성 효과에 훨씬 덜 기여합니다. 이는 주로 그들의 작업 중 소수가 우리 데이터에 나타나기 때문입니다—주로 이러한 직업이 우리 샘플에서 관련 작업이 거의 없기 때문입니다.

AI가 근로자가 시간을 보내는 방식을 어떻게 바꿀 수 있을까요?

근로자가 AI로 직업 작업의 하위 집합을 가속화할 수 있다면, AI가 덜 가속화를 제공하는 작업이 더 크고 따라서 더 중요한 작업의 몫을 차지할 수 있습니다. 예를 들어, AI가 주택 검사관이 보고서를 준비하는 데 도움이 될 수 있지만, 검사관이 여전히 검사를 직접 수행하기 위해 부동산에 물리적으로 이동하는 데 같은 시간을 소비해야 한다면, 이는 검사를 전체 직업의 더 큰 비율로 만들 수 있습니다.

아래 그림은 몇 가지 직업에 대해 이를 설명합니다. 소프트웨어 개발자의 경우, AI는 소프트웨어 개발, 테스트, 문서화 및 데이터 조작 프로세스를 가속화합니다. 그러나 우리는 현재 시스템 설치 조정이나 다른 기술자 또는 엔지니어의 작업 감독에 대한 의미 있는 AI 사용을 보지 못합니다. 교사의 경우, AI가 수업 및 활동 계획을 지원하지만 교실에서 과외 활동 클럽을 후원하거나 규칙을 시행하는 데는 도움이 되지 않음을 봅니다.

성장 관점에서, 이러한 관찰은 Aghion, Jones, and Jones의 최근 관찰과 잘 일치합니다: “성장은 우리가 잘하는 것이 아니라 필수적이지만 개선하기 어려운 것에 의해 제약될 수 있습니다.”

큰 잠재적 시간 절감을 보여주는 “가속화된” 작업과 샘플에 나타나지 않는 잠재적 “병목” 작업과 함께 네 가지 다른 직업입니다. 예를 들어, 소프트웨어 엔지니어는 소프트웨어 개발 및 디버깅에서 큰 추정 시간 절감을 보지만 프로그래머 감독에서는 보지 못합니다. 주간 시간 비율은 Claude에 의해 추정됩니다(이전 섹션 참조).

한계

우리의 접근 방식에는 이 주제에 대한 추가 연구가 필요한 몇 가지 한계가 있습니다:

Claude의 예측은 불완전하며 Claude의 시간 추정치에 대한 실제 검증이 부족합니다: AI 시스템은 불완전한 예측자이며, 사용자가 모델과의 상호 작용을 완료한 후 발생하는 활동을 볼 수 없습니다. 우리는 이러한 추정치가 모델 역량과 함께 개선될 것으로 기대하지만, 모델 추정치를 사용하면 상당한 노이즈 소스가 도입됩니다. 우리의 추정치는 모델이 작업 시간 추정에서 인간 성능에 접근하고 있으며 인간 자체가 완벽과는 거리가 멀다는 것을 보여주지만, Claude가 제공하는 추정치를 검증할 실제 데이터가 부족합니다.
작업 분류법의 한계: 실제 직업은 O*NET 작업 목록보다 더 복잡하며, 각 작업에 대해 추정하는 시간 할당은 대략적일 뿐입니다. 작업의 많은 중요한 측면—암묵적 지식, 관계, 불확실성 하에서의 판단—은 이러한 공식 작업 설명에 나타나지 않으며, 작업 간의 연결은 격리된 작업에 대한 시간 절감만큼 또는 그 이상으로 생산성에 중요할 수 있습니다. 우리는 개별 작업에 대해 큰 예측 시간 절감을 보여주지만, 최근 무작위 대조 시험은 엔드 투 엔드 소프트웨어 기능을 연구하여 AI로 인한 시간 절감을 보지 못했습니다.
구조적 가정: 위의 계산에서 우리는 전문가가 AI 없이 주어진 작업을 완료하는 데 걸리는 시간과 AI와 함께 걸린 시간을 비교합니다. 그러나 이는 생산성 이득을 과소평가할 수 있습니다 – 직원을 고용하고 컨텍스트를 전달하는 데 우리가 고려하지 않는 추가 리소스가 필요하기 때문이며, AI의 작업 품질이 인간보다 나쁘다면 과대평가할 수도 있습니다.
조직의 재구성: 역사적으로, 개별 기업의 가장 큰 생산성 이득은 새로운 기술을 채택하기 위해 비즈니스 운영을 재구성한 결과였습니다. 우리의 모델은 그러한 재구성의 효과를 예측하는 데 도움이 될 수 있지만, 회사가 어떻게 재구성하기로 결정할지 또는 이 프로세스가 얼마나 빨리 발생할지 예측할 수 없습니다.
혁신의 역할: 기술 혁신은 경제 성장의 엔진입니다. 우리의 모델은 AI 시스템이 과학적 프로세스를 가속화하거나 심지어 자동화할 수 있는 방법이나 이것이 생산성, 성장 및 작업 구조에 미치는 영향을 포착하지 못합니다.
제한된 데이터: 우리의 데이터셋은 Claude.ai 대화에서만 파생됩니다. 이 샘플은 AI 사용의 전체 스펙트럼을 대표하지 않으며, 사람들이 Claude를 사용하는 작업의 인스턴스가 Claude가 가장 유용할 것이라고 생각하는 것인 선택 효과가 있을 가능성이 높습니다. 또한 유한한 샘플 크기로 인해 일부 덜 일반적인 AI 작업을 놓칠 가능성이 높습니다.

우리가 여기에서 개발하는 측정 인프라는 대규모로 AI가 시간 절감에 미치는 영향을 지속적으로 추적할 수 있게 합니다. 모델이 개선되고 더 나은 방법이 이러한 한계를 해결함에 따라, 이러한 시간 절감을 재추정하고 이러한 역량 개선이 더 넓은 경제적 영향으로 어떻게 변환되는지 식별할 수 있습니다. 우리는 앞으로 몇 달과 몇 년 동안 이러한 변화를 추적할 것으로 기대합니다.

결론

Claude는 몇 분이면 완료할 수 있는 간단한 음식 준비 질문에서 여러 시간이 걸리는 복잡한 법률 및 관리 작업에 이르기까지 매우 다양한 복잡성의 작업을 처리합니다. 그러나 이 작업의 총 효과는 무엇일까요?

Claude의 작업당 시간 추정치를 기반으로(그리고 향후 10년간 보편적 채택을 가정), 현재 모델의 사용이 미국 노동 생산성의 연간 1.8% 증가를 의미함을 발견했습니다—최근 노동 생산성 성장률의 두 배입니다. 현재 AI 사용을 기반으로, 이러한 이득은 기술, 교육 및 전문 서비스에 집중되는 반면, 소매, 레스토랑 및 운송 부문은 최소한의 영향을 볼 것입니다. 우리는 모델 역량, 제품 및 채택이 계속 진행됨에 따라 Economic Index의 일부로 시간이 지남에 따라 이러한 변화를 추적할 것입니다.

이러한 생산성 이득은 기존 작업을 더 빠르게 완료하는 데서 비롯됩니다. 그러나 역사적으로 전기화, 컴퓨팅 또는 인터넷과 같은 변혁적 생산성 개선은 오래된 작업을 가속화하는 것이 아니라 생산을 근본적으로 재조직하는 데서 비롯되었습니다. 이러한 미래에서는 AI가 기능 구현을 더 빠르게 만들 뿐만 아니라 회사가 AI를 사용하거나 다른 수단을 통해 이러한 기능을 더 빠르게 검증하고 출시하기 위해 회의 및 코드 검토를 재구성합니다.

우리의 프레임워크는 이러한 재구성의 효과를 추정하는 데 사용될 수 있지만, 어떤 변화가 발생할지 또는 얼마나 빨리 발생할지 예측할 수 없습니다. 향후 작업의 중요한 방향은 이 질문을 이해하는 것입니다—기업이 언제 그리고 어떻게 새로운 AI 역량을 중심으로 스스로를 재조직하는지 더 잘 이해하기 위해. 답은 AI가 상당하지만 제한된 생산성 부스트를 제공하는 것에서 역사적으로 기술 혁명을 정의한 종류의 구조적 변혁을 나타내는 것으로 도약하는 시기를 결정할 것입니다.

Bibtex

이 게시물을 인용하려면 다음 Bibtex 키를 사용할 수 있습니다:

@online{tamkinmccrory2025productivity,
author = {Alex Tamkin and Peter McCrory},
title = {Estimating AI productivity gains from Claude conversations},
date = {2025-11-05},
year = {2025},
url = {https://www.anthropic.com/research/estimating-productivity-gains},
}

부록

다른 추정치와 Claude의 추정치 비교

AI로 인한 10년 기간 동안의 연간 노동 생산성 성장 예측 증가입니다. Filippucci, Gal, and Schief, 2024에서 재현한 그림입니다. 점선은 Claude의 추정치에서 파생된 1.8%입니다.

시간 추정에 사용된 프롬프트

인간 시간 추정 프롬프트

Human: 다음 대화를 고려하세요:

<conversation>
{{TRANSCRIPT}}
</conversation>

유능한 전문가가 어시스턴트가 수행한 작업을 완료하는 데 필요한 시간을 추정하세요.
다음을 가정합니다:
- 필요한 도메인 지식 및 기술
- 모든 관련 컨텍스트 및 배경 정보
- 필요한 도구 및 리소스에 대한 액세스

최종 답변을 제공하기 전에 <thinking> 태그를 사용하여 추론 프로세스를 분해하세요:
<thinking>
작업을 완료하는 데 필요한 시간을 추정하는 2-5개 문장의 추론입니다.
</thinking>

다음 형식으로 출력을 제공하세요:
<answer>시간을 나타내는 숫자(짧은 작업의 경우 0.5와 같은 소수를 사용할 수 있음)</answer>

Jeongsk

탐색기