Claude Opus 4.5와 새로운 LLM 평가가 어려워지는 이유

원문: https://simonwillison.net/2025/Nov/24/claude-opus/

2025년 11월 24일

Anthropic은 오늘 아침 Claude Opus 4.5를 출시했으며, 이를 “코딩, 에이전트, 그리고 컴퓨터 사용에 있어 세계 최고의 모델”이라고 부르고 있습니다. 이는 지난 주에 출시된 OpenAI의 GPT-5.1-Codex-Max와 Google의 Gemini 3 모두로부터의 상당한 도전 이후 최고의 코딩 모델 자리를 되찾으려는 시도입니다!

Opus 4.5의 핵심 특징은 200,000 토큰 컨텍스트(Sonnet과 동일), 64,000 토큰 출력 제한(역시 Sonnet과 동일), 그리고 2025년 3월 “신뢰할 수 있는 지식 기준점”입니다(Sonnet 4.5는 1월, Haiku 4.5는 2월).

가격 책정은 큰 안도감을 줍니다: 입력 100만 토큰당 $5, 출력 100 만토큰당$ 25입니다. 이는 이전 Opus의 $15/$ 75보다 훨씬 저렴하며, GPT-5.1 계열( $1.25/$ 10)과 Gemini 3 Pro( $2/$ 12, 또는 200,000 토큰 초과 시 $4/$ 18)와 조금 더 경쟁력을 유지합니다. 참고로 Sonnet 4.5는 $3/$ 15이고 Haiku 4.5는 $1/$ 5입니다.

Opus 4.1 대비 Opus 4.5의 주요 개선사항 문서에는 몇 가지 흥미로운 세부 사항이 더 있습니다:

Opus 4.5는 새로운 effort 매개변수를 가지고 있으며, 기본값은 high이지만 더 빠른 응답을 위해 medium 또는 low로 설정할 수 있습니다.
이 모델은 향상된 컴퓨터 사용을 지원하며, 특히 Opus 4.5에 제공하여 화면의 확대된 영역을 요청하도록 할 수 있는 zoom 도구를 지원합니다.
“이전 assistant 턴의 사고 블록이 기본적으로 모델 컨텍스트에 보존됩니다”—이전 Anthropic 모델들은 이를 폐기했다고 합니다.

저는 주말 동안 Anthropic의 새 모델에 대한 미리보기 액세스 권한이 있었습니다. Claude Code에서 상당한 시간을 보냈고, 그 결과 sqlite-utils의 새 알파 릴리스를 만들게 되었으며, 여러 대규모 리팩토링이 포함되어 있습니다. Opus 4.5는 이틀 동안 20개의 커밋, 39개 파일 변경, 2,022개 추가 및 1,173개 삭제에 걸쳐 대부분의 작업을 담당했습니다. 여기 제가 더 복잡한 새 기능 중 하나를 구현하는 데 도움을 받은 Claude Code 대화록이 있습니다.

이것은 분명히 훌륭한 새 모델이지만, 하나의 함정에 빠졌습니다. 제 미리보기는 일요일 오후 8시에 만료되었는데, 알파를 위한 마일스톤에 아직 해결해야 할 몇 가지 문제가 남아 있었습니다. Claude Sonnet 4.5로 다시 전환했고… 새 모델로 달성했던 것과 같은 속도로 계속 작업했습니다.

돌이켜보면, 이런 프로덕션 코딩은 제가 예상했던 것보다 새 모델의 강점을 평가하는 데 덜 효과적인 방법이었습니다.

저는 새 모델이 Sonnet 4.5보다 개선되지 않았다고 말하는 것이 아닙니다—하지만 제가 제시한 과제들이 두 모델 간의 의미 있는 능력 차이를 식별할 수 있었다고 자신있게 말할 수 없습니다.

이것은 저에게 점점 커지는 문제를 나타냅니다. AI에서 제가 가장 좋아하는 순간은 새 모델이 이전에는 단순히 불가능했던 무언가를 할 수 있는 능력을 줄 때입니다. 과거에는 이러한 것들이 훨씬 더 명확하게 느껴졌지만, 오늘날에는 새 세대 모델과 이전 모델을 구분하는 구체적인 예를 찾기가 매우 어려운 경우가 많습니다.

Google의 Nano Banana Pro 이미지 생성 모델은 사용 가능한 인포그래픽을 렌더링하는 능력이 이전 모델들이 웃길 정도로 무능했던 작업을 실제로 대표한다는 점에서 주목할 만했습니다.

프론티어 LLM들은 서로 구분하기가 훨씬 어렵습니다. SWE-bench Verified와 같은 벤치마크는 모델들이 한 자릿수 퍼센트 포인트 차이로 서로를 이기는 것을 보여주지만, 이것이 제가 매일 해결해야 하는 실제 문제에서 실제로 무엇을 의미할까요?

그리고 솔직히, 이것은 주로 저의 책임입니다. 저는 프론티어 모델의 능력을 조금 넘어서는 제 자신의 작업 컬렉션을 유지하는 데 뒤처졌습니다. 이런 것들이 많이 있었는데 하나씩 해결되었고 이제는 새 모델을 평가하는 데 도움이 될 적절한 도전 과제가 부끄럽게도 부족합니다.

저는 사람들에게 모델이 실패하는 작업을 메모에 저장해두어 나중에 새로운 모델에 대해 시도해볼 수 있도록 자주 조언합니다—이는 Ethan Mollick에게서 배운 팁입니다. 저 스스로 그 조언을 더욱 강화해야 합니다!

저는 Anthropic과 같은 AI 연구소가 이 도전 과제를 직접 해결하는 데 도움을 주기를 바랍니다. 새 모델 릴리스가 같은 제공업체의 이전 세대 모델이 처리할 수 없었던 작업을 해결할 수 있는 구체적인 예와 함께 제공되기를 원합니다.

“Sonnet 4.5에서는 실패했지만 Opus 4.5에서는 성공하는 프롬프트 예시가 여기 있습니다”라는 것이 MMLU나 GPQA Diamond와 같은 이름의 벤치마크에서 한 자릿수 퍼센트 개선보다 저를 훨씬 더 흥분시킬 것입니다.

그동안 저는 계속해서 그들에게 자전거를 타는 펠리컨을 그리게 할 것입니다. 여기 Opus 4.5가 그린 것입니다(기본 “high” effort 레벨로):

펠리컨은 귀엽고 꽤 좋아 보입니다. 자전거는 그리 좋지 않습니다 - 프레임이 잘못되었고 핸들바가 앞쪽을 향하는 것처럼 보이는데 펠리컨은 뒤쪽을 향하고 있습니다. 핸들바 위에 달걀처럼 보이는 것도 있습니다.

새로운 더 상세한 프롬프트에서는 훨씬 더 잘했습니다:

펠리컨에게 깃털과 붉은 주머니가 있습니다 - 번식기 깃털의 충분히 가까운 버전입니다. 자전거는 훨씬 더 나은 모양입니다.

여기 Gemini 3 Pro에 대한 동일한 복잡한 프롬프트와 GPT-5.1-Codex-Max-xhigh에 대한 것이 있습니다.

여전히 프롬프트 인젝션에 취약

Anthropic의 발표 게시물의 안전 섹션에서:

Opus 4.5를 통해 우리는 모델을 해로운 행동으로 속이기 위한 기만적인 지시를 몰래 주입하는 프롬프트 인젝션 공격에 대한 견고성에서 상당한 진전을 이루었습니다. Opus 4.5는 업계의 다른 어떤 프론티어 모델보다 프롬프트 인젝션으로 속이기 어렵습니다:

한편으로는 이것이 훌륭해 보이며, 이전 모델과 경쟁사 대비 명확한 개선입니다.

하지만 차트가 실제로 우리에게 말해주는 것은 무엇일까요? 프롬프트 인젝션에 대한 단일 시도가 여전히 20번 중 1번은 성공하며, 공격자가 10가지 다른 공격을 시도할 수 있다면 그 성공률은 1/3로 올라간다는 것을 말해줍니다!

저는 여전히 모델이 프롬프트 인젝션에 빠지지 않도록 훈련시키는 것이 이 문제에 대한 올바른 방향이라고 생각하지 않습니다. 우리는 충분히 동기 부여된 공격자가 모델을 속일 방법을 찾을 수 있다는 가정 하에 애플리케이션을 설계해야 합니다.

Jeongsk

탐색기

Claude Opus 4.5와 새로운 LLM 평가가 어려워지는 이유

여전히 프롬프트 인젝션에 취약

그래프 뷰