Viele machen ähnliche erste Erfahrungen mit LLMs beim Codieren: Änderungen an einzelnen Dateien verlaufen oft reibungslos, aber sobald die Aufgabe zu einem längeren, mehrstufigen Projekt mit mehreren Dateien und Einschränkungen wird, kann das Modell Anforderungen nicht erfassen, Logik wiederholen oder mittendrin vom eigentlichen Projekt abweichen. Was ich dabei beobachte… Claude Sonett 4.6 Es geht nicht um eine „etwas höhere Punktzahl“, sondern darum, ob es sich wie ein zuverlässiges Standardmodell verhält, das die Zusammenarbeit bei längeren Aufgaben ermöglicht und Projekte zuverlässig zum Abschluss bringt. In diesem Artikel behandle ich drei Punkte: die Neuerungen in Claude Sonnet 4.6, den Vergleich mit Opus und Qwen 3.5 sowie einen schlanken Sonnet+Qwen-Workflow, der sich an realen Ingenieurprojekten orientiert.
Was Claude Sonett 4.6 Ist: Die Veränderungen, die mir wirklich wichtig sind
Stabilität und kontrollierbare Lieferung bei langen Aufgaben
Den Wert von Claude Sonett 4.6 fasse ich folgendermaßen zusammen: Es eignet sich besser als Standardmodell für lange, stark reglementierte Arbeiten, die mehrere Kollaborationsrunden erfordern. In realen Projekten bedeutet das oft:
- Refaktorierungen über mehrere Dateien hinweg, bei denen Styleguides, APIs, Tests und Release-Vorgaben beachtet werden müssen.
- Argumentation anhand von Dokumentation und Code, mit Zitaten oder nachvollziehbaren Belegen
- Werkzeuggestütztes Arbeiten (Suchen, Abrufen, Codeausführung, Dateierstellung) mit iterativen Ausgaben
Wenn ein Modell unter diesen Bedingungen stabil bleibt, verbringen Sie weniger Zeit damit, Anforderungen erneut zu erläutern, und mehr Zeit damit, Änderungen zu liefern, die tatsächlich zusammengeführt werden können.
1M-Token-Kontext (Beta)
Ich betrachte die Kontextfenstergröße als die Informationsmenge, die das Modell innerhalb einer einzelnen Sitzung lesen und für Schlussfolgerungen verwenden kann. Claude Sonett 4.6 bietet ein Kontextfenster mit 1 Million Token (Beta)Ich bin eher bereit dazu:
- Mehrere Einschränkungen, Schnittstellenspezifikationen und wichtige Dateien in einem einzigen, kontinuierlichen Aufgabenthread verwalten
- Reduzierung des „Regelverlusts“, der auftritt, wenn Eingaben auf mehrere Runden aufgeteilt werden.
- Führen Sie einen Workflow von der Konzeption über die Implementierung bis hin zum Audit durch, ohne dass zwischen den Schritten eine manuelle Zusammenfassung erfolgt.
Mein Fokus liegt nicht nur darauf, ob es passt, sondern auch darauf, ob es nach dem Passen zuverlässig argumentieren und konsistent bleiben kann. Anthropic positioniert Sonnet 4.6 zudem so, dass es große Codebasen durchsucht und konsistentere Ergebnisse durch agentenbasierte Codierung liefert.
Denksteuerung und Verdichtung
In der Praxis möchte ich nicht, dass jede Anfrage mit maximaler Schlussfolgerungstiefe ausgeführt wird. Ich verwende den „Denkaufwand“ als Stellschraube:
- Geringerer Aufwand für schnelle Sichtung und Entwürfe.
- Mehr Aufwand an Entscheidungspunkten (Architekturwahl, Audits, risikoreiche Änderungen)
Und wenn lange Sitzungen an die Grenzen des Kontextes stoßen, Kontextverdichtung (Beta) ist deshalb wertvoll, weil es den manuellen Aufwand des Umschreibens historischer Texte in Zusammenfassungen reduziert.
Kosten und Standardverfügbarkeit
Wenn ein Modell in einem Workflow zum Standard wird, spielen Kostenstruktur und Zugänglichkeit eine Rolle. Anthropic verwendet weiterhin Sonnet 4.6. Preisgestaltung bei $3 / $15 pro Million Input-/Output-Token und setzt es breitflächig in seinen Produkten ein, was es einfacher macht, sich bei häufigen Anrufen in realen Pipelines darauf zu verlassen.
Claude Sonett 4.6 vs Opus vs Qwen 3.5: Wie ich auswähle
Sonett 4.6 vs OpusDer Unterschied liegt hauptsächlich in der „Obergrenze“ und der Kostenstruktur.
Ich betrachte die Beziehung folgendermaßen:
- Claude Sonett 4.6 ist die bessere Standardeinstellung für die meisten Programmier- und Wissensarbeitsaufgaben.
- Opus Die stärkere „Eskalations“-Option ist die richtige Wahl, wenn Sie eine tiefergehende Begründung, längere Ausführungen oder eine strengere Konsistenz benötigen.
Wenn ich also ein Modell benötige, das die Zusammenarbeit bei einer längeren Aufgabe ermöglicht und diese zum Abschluss bringt, beginne ich mit Sonnet. Bei Aufgaben mit hohem Einsatz und geringer Fehlertoleranz wechsle ich eher zu Opus.
Qwen 3.5Ich verwende es als „Implementierungs- und Fixkapazität“.
Speziell für Qwen3.5-397B-A17B gilt Folgendes: Modellkarte listet eine Standardkontextlänge von auf 262.144 Token (~256.000)In meinem Arbeitsablauf passt das gut zu Folgendem:
- Modulare Implementierungsarbeiten, die parallelisiert werden können
- Ausfüllen der Testabdeckung und der Grenzfälle anhand einer Checkliste
- Gezielte Korrekturen basierend auf den Ergebnissen von Audits, bereitgestellt als Patch-artige Änderungen
Ich zwinge Qwen 3.5 nicht dazu, die globale Architektur oder den finalen Audit-Abschluss selbst zu übernehmen. Stattdessen beschränke ich die Ausgaben durch explizite Spezifikationen und Aufgabenkarten, um den Implementierungsdurchsatz zu maximieren.
Meine Entscheidungsregel in einem Satz
- Ich brauche ein Modell für Architekturausrichtung, auf Kurs bleiben In lange Aufgaben und Abschluss der Prüfung → Claude Sonett 4.6 passt besser.
- Ich brauche tiefergehende Argumentation oder sehr lange Endergebnisse → Opus passt besser.
- Ich brauche A Parallelisierte Codierungs- und Fehlerbehebungspipeline → Qwen 3.5 passt besser, insbesondere wenn es folgt A strenge Spezifikation.
Benchmark-SnapshotSonett 4.6 vs. Opus 4.5 vs. Qwen 3.5
Um den Vergleich zu verdeutlichen, folgt hier eine Tabelle. öffentlich zitierfähig Zahlen.
Hinweis: Die Abdeckung variiert je nach Quelle, daher füge ich nur explizit aufgeführte Metriken hinzu; alles andere ist mit „—“ gekennzeichnet.
| Benchmark / Kennzahl | Claude Sonett 4.6 | Claude Opus 4.5 | Qwen 3.5-397B-A17B |
| SWE-bench-verifiziert | 79.60% | 80.9 | 76.4 |
| OSWorld-geprüft | 72.50% | 66.3 | 62.2 |
| SWE-bench Mehrsprachig | — | 77.5 | 69.3 |
| SecCodeBench | — | 68.6 | 68.3 |
| Anschlussbank 2 | — | 59.3 | 52.5 |
| BFCL-V4 (Tool-/Funktionsaufruf) | — | 77.5 | 72.9 |
| LongBench v2 (long-context) | — | 64.4 | 63.2 |
| Claude Code – frühe Präferenz vs. Sonett 4.5 | ~70% bevorzugt Sonnet 4.6 | — | — |
| Claude Code (frühe Präferenz) vs. Opus 4.5 | ~59% bevorzugt Sonnet 4.6 | — | — |
Claude Sonett 4.6 + Qwen 3.5 Workflow: Meine Vorgehensweise und warum es funktioniert
Dies ist ein minimaler Ablaufplan, der die einzelnen Schritte beschreibt, ohne sich in Implementierungsdetails zu verlieren.
Was ich tue (eine vierstufige Schleife)
- Claude Sonett 4.6 richtet die Architektur ausSchnittstellenverträge, Modulgrenzen, wichtige Einschränkungen und Akzeptanzkriterien.
- Qwen 3.5 implementiert die SpezifikationenIch teile die Arbeit in Modulaufgaben auf und bestehe auf strikter Einhaltung des Vertrags.
- Claude Sonett 4.6 führt den Abschluss der Prüfung durch: Probleme, geordnet nach Schweregrad (Sicherheit, Korrektheit, Grenzfälle, Wartbarkeit, Testabdeckung) plus konkrete Anweisungen zur Behebung.
- Qwen 3.5 wendet gezielte Korrekturen an: Änderungen im Patch-Stil, plus Regressionstests oder minimale Validierungsschritte.
Warum ich es so aufgeteilt habe (zwei Schlussfolgerungen)
- Ich brauche ein Modell für Architekturausrichtung, Einhaltung des Zeitplans bei langwierigen Aufgaben und Abschluss des Audits → Claude Sonett 4.6 passt besser. Diese Arbeit erfordert modulübergreifendes Schließen und konsequentes Befolgen von Regeln über lange Kontexte hinweg, mit einem Endzustand, der tatsächlich auslieferbar ist.
- Ich brauche eine parallelisierte Codierungs- und Fehlerbehebungspipeline → Qwen 3.5 passt besser, insbesondere bei strengen Vorgaben. Die Implementierung und Fehlerbehebung können in übersichtliche Aufgabenkarten aufgeteilt und parallel ausgeführt werden, sofern die Spezifikation eindeutig ist.
Wenn Sie ein Modell wünschen, das über die reine „Es sieht korrekt aus“ hinausgeht und reale Arbeitsabläufe – lange Aufgaben, mehrere Einschränkungen, mehrstufige Zusammenarbeit und einen sauberen Endzustand – konsequent unterstützt, dann sehe ich Claude Sonett 4.6 als solide Standardwahl. Wenn Sie tiefergehende Analysen oder ungewöhnlich lange Endergebnisse benötigen, bleibt Opus eine sinnvolle Eskalation. Und wenn Sie einen höheren Durchsatz für Implementierung und Fehlerbehebungen wünschen, verwenden Sie Qwen 3.5 Eine spezifikationsgetriebene Codierungslinie ist ein praktischer Weg zur Skalierung.



