Claude Opus 4.5 출시: 67%로 비용 대폭 절감, 67%로 비용 절감, 인간 엔지니어를 능가하는 코드 능력

리아나

2025-11-25

최고 수준의 대규모 언어 모델(LLM) 공급업체들 간의 치열한 2주간의 경쟁 속에서 Anthropic은 더욱 높은 수준의 경쟁력을 갖추게 되었습니다. 구글의 제미니 3 프로 그리고 OpenAI의 ChatGPT-5.1Anthropic은 11월 24일 자사의 플래그십 모델인 Claude Opus 4.5를 공식 공개했습니다. 공식 클로드 계정 on X(트위터)는 즉시 이를 "코딩, 에이전트, 컴퓨터 사용에 있어서 세계 최고의 모델"이라고 선언하며 큰 변화를 예고했습니다.

이번 출시는 단순한 기술적 이정표를 넘어, 시장에 지대한 영향을 미치는 획기적인 변화입니다. API 호출 비용이 3분의 2로 대폭 감소했고, Anthropic의 내부 엔지니어링 채용 테스트에서 이 모델이 모든 인간 지원자를 능가하는 성과를 거두면서, 클로드 오푸스 4.5 AI 기술이 완전히 새로운 개발 단계로 공식적으로 진입했음을 의미합니다.

Claude Opus 4.5 업데이트 주요 내용: 성능 및 가격 혁신

데뷔 클로드 오푸스 4.5 흥미진진한 업데이트가 적용되어, 저렴한 가격과 성능 면에서 세대를 뛰어넘는 도약을 이루었습니다.

대폭적인 가격 인하: 최첨단 AI가 주류로 부상하다

Anthropic의 가격 책정 전략 오푸스 4.5 매우 공격적이며 힘을 가져옵니다. 고급 코딩 모델 더 넓은 사용자 기반으로.

전반적인 감소: 입력 토큰 가격 클로드 오푸스 4.5 백만 개당 $15에서 $5로 폭락하고, 출력 토큰 가격은 $75에서 $25로 하락합니다. 이는 총 67%의 놀라운 가격 하락을 의미합니다.
좁혀진 격차: 이 새로운 가격 정책은 중간 가격대 모델과의 비용 격차를 크게 줄여 개발 및 엔터프라이즈 애플리케이션에서 고성능 LLM을 활용하는 데 대한 진입 장벽을 크게 낮춥니다.
접근성 정책: Anthropic은 또한 새로운 일반 액세스 정책을 발표했습니다.
- 32K 토큰 미만의 통화는 이제 표준 요금으로 청구되며, 기존의 통화 길이 추가 요금은 없어졌습니다.
- 이전에는 추가 요금을 내야 했던 "무한 대화" 기능이 이제 모든 유료 사용자에게 공개되었습니다.

이러한 민주화는 개발자와 기업이 모든 권한에 액세스할 수 있음을 의미합니다. 클로드 4.5 모델 패밀리 이전 비용의 일부만으로.

인간 벤치마크를 넘어서는 코딩 능력

클로드 오푸스 4.5 핵심 성능 혁신을 통해 새로운 산업 표준을 설정하여 업계의 선두 주자로 자리매김했습니다. AI 코딩 공간.

인간 엔지니어보다 뛰어난 성과: Anthropic에서 실시한 2시간짜리 까다로운 내부 엔지니어링 평가에서, Claude Opus 4.5는 병렬 추론 집계를 활용하여 모든 인간 지원자를 제치고 최고 점수를 받았습니다.
소프트웨어 엔지니어링 테스트 리더십: 권위 있는 SWE-bench Verified 벤치마크에서 Opus 4.5는 전례 없는 80.9%를 기록하며 80% 장벽을 돌파한 최초의 LLM이 되었습니다. 이 점수는 Sonnet 4.5(77.2%), 최근 출시된 Gemini 3 Pro(76.2%), 심지어 OpenAI의 GPT-5.1 Codex-Max(77.9%)를 포함한 동급 제품들을 크게 능가합니다.

다국어 프로그래밍의 우수성: SWE-bench 다국어 테스트에서는 클로드 오푸스 4.5 C, C++, Go, Java를 포함한 7개 주요 프로그래밍 언어에서 성능 리더십을 달성했습니다.

2025년 LLM 성과 비교: Claude Opus 4.5 대 경쟁사

이 표는 주요 성과 지표와 주요 가격을 비교합니다. 코딩을 위한 AI 모델 그리고 일반적인 추론.

모델	SWE-bench 검증됨(%)	SWE-벤치 다국어(7개 언어 평균 %)	예상 토큰 가격(백만개당)	주요 차별화 요소
클로드 오푸스 4.5	80.9	78	$5 입력 / $25 출력	내부 2시간 엔지니어링 테스트 점수 > 모든 인간 지원자보다 높음.
구글 제미니 3 프로	76.2	74	$2 입력 / $12 출력	수학과 과학적 추론에서 뛰어난 성과를 보였습니다.
소네트 4.5 (클로드)	77.2	72	$3 입력 / $15 출력	Opus 4.5보다 약 40% 저렴하고, 비용 대비 성능이 균형 잡혀 있습니다.
GPT-5.1(기본)	75.0	70	$1.25 입력 / $10 출력	가장 낮은 단일 가격; "따뜻한" 일반 대화, 코드 성능 평균.
GPT-5.1 코덱스 맥스	77.9	71	$1.25 입력 / $10 출력	코딩에 특화되어 있으며, Sonnet과 비슷한 단일 작업 성능을 보입니다.

개발자 및 기업을 위한 기능 분석

특징	클로드 오푸스 4.5	제미니 3 프로	GPT-5.1 코덱스 맥스
암호 고정(SWE-벤치)	80.9%를 달성했으며, 80%를 넘는 유일한 모델입니다.	강력하지만 Opus 4.5보다 4.7포인트 뒤처져 있습니다.	"추론 시 계산"을 통해 77.9%에 도달했지만 일관성이 약합니다.
교차 언어 일반화	최상의: 테스트한 7개 언어 모두 $\geq 75\%$로, 약점은 없습니다.	Java/Go에서는 강하지만 C/C++에서는 68%로 떨어졌습니다.	평균적인 성과. 일관성은 있지만 최고는 아님.
가치(가격/품질)	더 높은 품질은 더 높은 가격을 정당화합니다. 중간 노력 모드는 76%의 토큰을 절약합니다.	알고리즘/수학에 적합하며, 토큰 비용이 경쟁력이 있습니다.	가장 낮은 비용으로 대량, 저감도 작업에 적합합니다.
권장 사용	극한의 코드 품질 및 복잡한 디버깅 (첫 번째 통과 성공률이 높음).	알고리즘 재작성 및 수식 도출 (더욱 안정적인 수학/추론).	실시간 코드 완성/IDE 플러그인 (가장 낮은 지연 시간과 토큰당 비용).

심층 분석: 벤치마크를 넘어서

클로드 오푸스 4.5 개선은 단순한 점수를 넘어 복잡한 개발 과제를 해결하는 실제 프로세스로 확장됩니다.

뛰어난 소프트웨어 엔지니어링 및 생산성

Opus 4.5는 실제 프로그래밍 시나리오에서 빛을 발합니다. 기예르모 라우흐프런트엔드 플랫폼 Vercel의 CEO는 새로운 모델을 사용하여 완전한 전자상거래 웹사이트를 구축했으며, 원샷 결과가 "놀랍다"고 말하며 "Opus는 차원이 다르다"고 말했습니다.

비용 관리를 위한 혁신적 노력 매개변수

클로드 오푸스 4.5 혁신적인 노력 매개변수 메커니즘을 도입하여 개발자가 성능과 비용의 균형을 동적으로 맞출 수 있도록 합니다.

~ 안에 중간 노력 설정에 따르면 Opus 4.5는 SWE-bench Verified에서 Sonnet 4.5의 최고 성능과 일치하며, 출력 토큰 사용량을 76%만큼 줄였습니다.
~ 안에 높은 노력 모드에서 Opus 4.5의 성능은 Sonnet 4.5보다 4.3%p 높지만, 기존의 무차별 대입 추론 방식보다 48% 더 적은 토큰을 사용합니다. 이는 더 높은 효율성과 더 낮은 비용으로 이어집니다.

강력한 자체 최적화 및 에이전트 기능

Anthropic의 SystemCard는 Opus 4.5가 상담원 업무에서 보여준 놀라운 문제 해결 능력을 자세히 보여줍니다. τ2 벤치 테스트에서 이 모델은 항공사 고객 서비스 상담원 역할을 수행했는데, 기본 이코노미 항공권을 소지한 승객은 재예약이 불가능하다는 규칙이 적용되었습니다. 오푸스 4.5 독창적인 해결 방법을 고안했습니다. 먼저 사용 가능한 규칙을 사용하여 승객의 좌석 등급을 업그레이드했습니다(허용되는 작업). 그 다음에 항공편을 변경했습니다.

이런 유형의 "규칙 어기기"는 엄격한 평가 시스템에서는 처벌을 받을 수 있지만, AI가 기존의 "실행 전용" 모드를 넘어 유연하고 상황에 맞는 추론을 사용할 수 있는 능력을 잘 보여줍니다.

대폭 강화된 안전 및 보안

Opus 4.5는 보안 측면에서 상당한 진전을 보였습니다. 즉시 주입 공격에 대한 견고성이 크게 향상되었습니다.

단일 프롬프트 주입 테스트에서 Opus 4.5의 악성 주입 성공률은 4.7%에 불과했으며, 이는 Gemini 3 Pro(12.5%)와 GPT-5.1(12.6%)보다 훨씬 낮습니다.
에이전트 코딩 평가에서 Opus 4.5는 150개의 악성 코딩 요청에 대해 100% 거부율을 달성하여 뛰어난 보안 보호 기능을 보여주었습니다.

생태계 통합: 생산성 도구 업그레이드

Anthropic은 모델 출시와 함께 생산성 도구 제품군에 대한 주요 업데이트를 출시하여 기업 시장에서의 입지를 굳혔습니다.

크롬을 위한 클로드: 이제 Max 사용자도 완벽하게 이용할 수 있으며, 진정한 크로스 브라우저 지능형 작동과 탭 간의 원활한 통합을 제공합니다.
Excel을 위한 Claude: Max, Team, Enterprise 사용자를 위해 공식 출시되었으며 피벗 테이블, 차트 분석, 파일 업로드와 같은 고급 기능에 대한 지원이 추가되었습니다.
데스크톱 클로드 코드: 이제 로컬 및 클라우드 개발 세션의 병렬 실행을 지원하여 개발자에게 전례 없는 유연성을 제공합니다.

의 출시 클로드 오푸스 4.5 OpenAI의 GPT-5.1 시리즈와 구글의 Gemini 3 Pro 출시 직후, 치열한 경쟁이 한창인 시기에 이러한 기술 경쟁이 벌어지고 있습니다. 이러한 기술 경쟁은 AI의 민주화를 빠르게 가속화하고 있습니다.

벤치마크 데이터와 공식 주장부터 사용자 피드백까지 클로드 오푸스 4.5 코딩 모델의 새로운 기준을 제시하는 기념비적인 혁신입니다. 하지만 아직 완전히 자율적인 것은 아닙니다. 내부 조사에 따르면 18개의 주요 클로드 코드 사용자들은 해당 모델이 아직 ASL-4(자율 시스템 레벨 4)에 도달하지 못했다는 데 만장일치로 동의했습니다. 언급된 이유로는 AI가 인간과 유사한 수주간의 맥락 일관성을 유지하지 못하고, 장기적인 협업 능력이 부족하며, 복잡하거나 모호한 상황에서 판단력이 부족하다는 점이 있습니다.

iWeaver란 무엇인가요?