Claude Opus 4.5 リリース: 67% によるコスト削減、67% によるコスト削減、コード能力は人間のエンジニアを超える

目次

Claude Opus 4.5リリースでは、67%のコスト削減と人間のエンジニアを超えるコード能力が示されました。
リアナ
2025-11-25

大規模言語モデル(LLM)のトップベンダーが2週間にわたって激しい競争を繰り広げる中、Anthropicは競争の激化を加速させた。 GoogleのGemini 3 Pro そして OpenAIのChatGPT-5.1アントロピックは11月24日にフラッグシップモデル「Claude Opus 4.5」を正式に発表した。 クロード公式アカウント X(Twitter)のユーザーは即座にこれを「コーディング、エージェント、コンピューターの使用における世界最高のモデル」と宣言し、大きな変化を告げました。

このリリースは単なる技術的なマイルストーンではありません。市場を根底から揺るがす破壊的な変革です。API呼び出しコストが3分の2も削減され、Anthropic社内のエンジニア採用テストにおいて、このモデルはすべての人間の候補者を凌駕しました。 クロード・オプス 4.5 AIテクノロジーがまったく新しい開発段階に正式に突入したことを示しています。

Claude Opus 4.5 アップデートのハイライト: パフォーマンスと価格の革命

デビュー クロード・オプス 4.5 エキサイティングなアップデートスイートを導入し、手頃な価格と純粋なパフォーマンスの両方で世代を超えた飛躍を実現します。

大幅な値下げ:最先端のAIが主流に

アントロピックの価格戦略 作品4.5 非常に攻撃的で、 高度なコーディングモデル より広いユーザーベースに。

  • 全体的な削減: 入力トークン価格は クロード・オプス 4.5 100万枚あたり$15からわずか$5に急落し、出力トークンの価格も$75から$25に下落しました。これは、全体で67%という驚異的な値下がりを示しています。
  • 狭まったギャップ: この新しい価格設定により、ミッドレンジ モデルとのコスト ギャップが大幅に解消され、開発およびエンタープライズ アプリケーションで高性能 LLM を利用するための参入障壁が大幅に下がります。
  • アクセシビリティポリシー: Anthropic は、新しい一連の一般アクセス ポリシーも発表しました。
    • 32K トークン未満の通話には標準料金が適用され、これまでの通話時間による追加料金はなくなりました。
    • これまで追加料金が必要だった「無限会話」機能が、すべての有料ユーザーに開放されました。

この民主化により、開発者や企業は クロード4.5モデルファミリー 以前のコストのほんの一部で済みます。

人間のベンチマークを超えるコーディング能力

クロード・オプス 4.5 主要なパフォーマンスの飛躍的進歩を通じて新たな業界標準を確立し、 AIコーディング 空間。

  • 人間のエンジニアを上回る: 高難易度のプロジェクト作業をテストするために設計された、Anthropic での 2 時間に及ぶ社内エンジニアリング評価において、Claude Opus 4.5 は並列推論集約を活用して最高得点を達成し、すべての人間の候補者を上回りました。
  • ソフトウェアエンジニアリングテストリーダーシップ: 権威あるSWE-bench Verifiedベンチマークにおいて、Opus 4.5は前例のない80.9%を記録し、80%の壁を突破した初のLLMとなりました。このスコアは、Sonnet 4.5(77.2%)、最近リリースされたGemini 3 Pro(76.2%)、さらにはOpenAIのGPT-5.1 Codex-Max(77.9%)といった同世代の競合を大きく上回っています。
  • 多言語プログラミングの優位性: SWEベンチ多言語テストでは、 クロード・オプス 4.5 C、C++、Go、Java を含む 7 つの主要プログラミング言語でパフォーマンスのリーダーシップを達成しました。

2025年度LLMパフォーマンス比較:Claude Opus 4.5と競合他社

この表は、主要製品の主なパフォーマンス指標と価格を比較したものです。 コーディングのためのAIモデル そして一般的な推論。

モデルSWE-bench 検証済み (%)SWEベンチ多言語(7言語平均%)EST(東部基準時。トークン価格 (100 万あたり)主な差別化要因
クロード・オプス 4.580.978$5入力 / $25出力社内 2 時間のエンジニアリング テストのスコア > すべての人間の候補者。
Google Gemini 3 Pro76.274$2入力 / $12出力数学と科学的推論において優れた成績を収めます。
ソネット 4.5 (クロード)77.272$3入力 / $15出力Opus 4.5 より約 40% 安く、コストパフォーマンスが優れています。
GPT-5.1(ベース)75.070$1.25入力 / $10出力最も安い単一価格。一般的なダイアログは「温かみのある」もの、コード パフォーマンスは平均的です。
GPT-5.1 コーデックスマックス77.971$1.25入力 / $10出力コーディングに特化しており、Sonnet に近いシングルタスク パフォーマンスを実現します。

開発者と企業向けの機能詳細

特徴クロード・オプス 4.5ジェミニ3プロGPT-5.1 コーデックスマックス
コード 固定(SWEベンチ)80%を超える唯一のモデル、80.9%を達成。強力ですが、Opus 4.5 より 4.7 ポイント遅れています。「推論時計算」により 77.9% に到達しましたが、一貫性は弱くなりました。
言語間の一般化最高: テストした 7 つの言語すべてで $\geq 75\%$ となり、弱点はありません。Java/Go では強いですが、C/C++ では 68% に落ちました。平均的なパフォーマンス。一貫しているが、トップではない。
価値(価格/品質)高品質には高い価格が正当化されます。中程度の労力モードでは 76% のトークンが節約されます。アルゴリズム/数学に最適。競争力のあるトークン コスト。コストが最も低く、大量かつ低感度のタスクに最適です。
推奨用途極めて高いコード品質と複雑なデバッグ (初回合格率が高い)。アルゴリズムの書き換えと式の導出 (より安定した数学/推論)。リアルタイムコード補完/IDEプラグイン (レイテンシとトークンあたりのコストが最も低い)。

詳細な分析:ベンチマークを超えて

クロード・オプス 4.5 改善は単なるスコアにとどまらず、複雑な開発タスクに取り組む実際のプロセスにまで及びます。

卓越したソフトウェアエンジニアリングと生産性

Opus 4.5 は、実際のプログラミング シナリオでその力を発揮します。 ギレルモ・ラウフフロントエンドプラットフォーム Vercel の CEO である氏は、新しいモデルを使用して完全な eコマース Web サイトを構築し、そのワンショットの結果は「驚くべきもの」であり、「Opus は別次元だ」と述べています。

コスト管理のための革新的な努力パラメータ

クロード・オプス 4.5 革新的な労力パラメータ メカニズムを導入し、開発者がパフォーマンスとコストのバランスを動的に取れるようになります。

  • 中程度の努力 この設定では、Opus 4.5 は SWE-bench Verified で Sonnet 4.5 の最高パフォーマンスに匹敵し、出力トークンの使用量は 76% 削減されます。
  • 高い努力 Opus 4.5 のパフォーマンスは、Sonnet 4.5 を 4.3 パーセントポイント上回りますが、従来のブルートフォース推論手法と比較して 48% 少ないトークン数しか使用しません。これは、効率の向上とコストの削減の両方につながります。

強力な自己最適化とエージェント機能

Anthropic社が付属するSystemCardには、Opus 4.5がエージェントタスクにおいて発揮する驚くべき問題解決能力の創造性が詳細に記述されています。τ2ベンチテストでは、モデルが航空会社のカスタマーサービスエージェントを演じ、ベーシックエコノミークラスの航空券を持つ乗客は予約変更できないというルールに挑戦しました。 作品4.5 独創的な回避策を考案しました。まず、利用可能なルールを使用して乗客の座席クラスをアップグレードし(許可されたアクション)、 それから フライトの変更を進めました。

この種の「ルール曲げ」は厳格な評価システムではペナルティを受ける可能性がありますが、従来の「実行のみ」モードを超えて、柔軟でコンテキストを認識した推論を採用する AI の能力を強調しています。

安全性とセキュリティの大幅な強化

Opus 4.5はセキュリティにおいて大きな進歩を示しており、プロンプトインジェクション攻撃に対する堅牢性が大幅に向上しています。

  • シングルプロンプトインジェクションテストでは、Opus 4.5 の悪意のあるインジェクションの成功率はわずか 4.7% で、Gemini 3 Pro (12.5%) や GPT-5.1 (12.6%) よりも大幅に低くなりました。
  • エージェント コーディング評価では、Opus 4.5 は 150 件の悪意のあるコーディング要求に対して 100% の拒否率を達成し、優れた安全保護機能を示しました。

エコシステム統合:生産性ツールのアップグレード

モデルの発売と並行して、Anthropic は生産性ツール スイートに大幅なアップデートを展開し、エンタープライズ市場における地位を確固たるものにしました。

  • ChromeのClaude: Max ユーザーに完全に提供され、真のクロスブラウザインテリジェント操作とタブ間のシームレスな統合を実現します。
  • ExcelのClaude: Max、Team、Enterprise ユーザー向けに正式にリリースされ、ピボット テーブル、グラフ分析、ファイルのアップロードなどの高度な機能のサポートが追加されました。
  • デスクトップクロードコード: ローカルおよびクラウド開発セッションの並列実行をサポートするようになり、開発者にこれまでにない柔軟性を提供します。

のリリース クロード・オプス 4.5 これは、OpenAIのGPT-5.1シリーズとGoogleのGemini 3 Proのデビュー直後、熾烈な競争のピークを迎えた時期に起こった。この技術競争は、AIの民主化を急速に加速させている。

ベンチマークデータや公式の主張からユーザーからのフィードバックまで、 クロード・オプス 4.5 これは画期的な進歩であり、コーディングモデルの新たな基準を確立しました。しかし、まだ完全には自律的ではありません。社内調査によると、18の重機が クロード・コード ユーザーは全員一致で、このモデルがまだASL-4(自律システムレベル4)に達していないことに同意しました。その理由として挙げられたのは、AIが人間のような数週間にわたるコンテキストの一貫性を維持できないこと、長期的な協働能力の欠如、複雑または曖昧な状況における判断力の欠如などです。

iWeaver とは何ですか?

iWeaver は、AI エージェントを搭載した個人向けナレッジ管理プラットフォームであり、独自のナレッジ ベースを活用して正確な洞察を提供し、ワークフローを自動化して、さまざまな業界の生産性を向上させます。

関連記事

「2028年の世界的インテリジェンス危機」予測の再評価:シトリニ研究のナラティブと実践的な個人リスク戦略の構造的レビュー