News

Claude Opus 4.7 Extended Thinking, was es wirklich besser kann

Anthropic hat Opus 4.7 mit Extended Thinking ausgeliefert. Drei Wochen Praxis-Test: wofuer es sich lohnt und wann Sonnet reicht.

Elöd A. Mata · 23. April 2026 · 3 Min Lesezeit

Anthropic hat Mitte April Opus 4.7 mit Extended Thinking ausgeliefert. Das Modell kann jetzt selber entscheiden, wie lange es ueber eine Frage nachdenkt: 5 Sekunden bei einer FAQ, 8 Minuten bei einer Compliance-Analyse.

Drei Wochen Praxis-Test in meinen Kursen, hier das Resultat.

Was Extended Thinking ist

Vor jedem Output durchlaeuft das Modell eine sichtbare Denk-Schleife. Du siehst die Gedanken, die Korrekturen, die Sackgassen. Dann kommt die Antwort.

In der Anthropic-Konsole sieht das so aus, dass ein eingeklappter “Thinking”-Block die Schritte zeigt: “Lass mich diese Frage in drei Aspekte zerlegen… Aspekt A waere…, aber Achtung, hier gibt es einen Sonderfall… ich pruefe den… ja, also Aspekt A nochmal anders formuliert…”.

Das ist nicht Theater. Das Modell wird messbar besser bei mehrstufigen Aufgaben.

Wo es sich lohnt

Compliance-Analyse: Du gibst ihm einen Vertrag plus revDSG-Anforderungen, er findet Konflikte, die Sonnet 4.6 uebersehen hat. Extra-Kosten: ja. Wert: Faktor 5 wenn der Anwalts-Stundensatz dahinter steht.

Mehrstufige Recherche: “Gegen den Hintergrund von X, vergleiche A und B, beruecksichtige aber Y und Z, und schreibe es fuer eine Geschaeftsleitung”. Sonnet liefert sauber, Opus liefert die richtigen Schwerpunkte.

Code-Reviews mit System: Bug nicht nur finden, sondern erklaeren warum es passiert ist und wie Architektur-Aenderung das verhindern wuerde.

Wo es nicht hilft

FAQ und Standard-Texte: Mail-Antwort, Stellenanzeige, Newsletter. Sonnet 4.6 ist gleich gut, billiger und schneller.

Recherche mit Quellen: Perplexity Deep Research macht das besser, weil es ueber Web sucht. Opus kann nur denken, nicht recherchieren.

Bilder verstehen: Multimodal-Faehigkeiten sind in Opus drin, aber Gemini 2.5 Pro ist hier weiterhin Klassenprimus.

Praxis-Test, drei Aufgaben

Ich habe denselben Auftrag drei Modellen gegeben:

Auftrag: “Pruefe die Datenschutz-Erklaerung der Klubschule Migros (Link) und identifiziere drei Punkte, wo sie den revDSG-Anforderungen nach Stand April 2026 nicht ganz entspricht. Begruende rechtlich.”

Modell	Zeit	Qualitaet	Kosten
Sonnet 4.6	12 s	Drei Punkte, einer davon ueberzogen	0.04 USD
Opus 4.7 Standard	18 s	Drei Punkte, alle nachvollziehbar	0.18 USD
Opus 4.7 Extended Thinking	4 Min	Sechs Punkte, davon fuenf belegt mit Artikel-Verweis	0.62 USD

Extended Thinking war 15-mal teurer als Sonnet, hat aber doppelt so viele richtige Punkte gefunden. Fuer eine Anwaltskanzlei lohnt sich das. Fuer einen Marketing-Manager nicht.

Mein Workflow seit drei Wochen

Standard-Aufgaben (80%): Gemini 2.5 Flash auf Vertex europe-west6
Texte mit Stil-Anspruch (15%): Claude Sonnet 4.6
Mehrstufige Analyse (3%): Claude Opus 4.7 Standard
Compliance, Code-Review, kritische Recherche (2%): Opus 4.7 Extended Thinking

Das hat meine Token-Kosten halbiert, ohne Qualitaetsverlust auf den Aufgaben, wo es zaehlt.

Wichtig fuer KMU

Wenn du Pro-Tarif ueberlegst, ist Opus 4.7 ein guter Grund. Aber: Extended Thinking nur bei drei bis fuenf Aufgaben pro Woche, wo wirklich tiefe Analyse Wert hat. Fuer den Rest reicht Sonnet oder sogar Haiku.

In den FirmenGPT-Konzepten, die ich aktuell baue, ist Opus immer als Eskalations-Stufe drin: 95% Anfragen laufen auf Flash, 5% schwere Anfragen werden automatisch auf Opus eskaliert. Fuer den Nutzer unsichtbar, fuer den Geldbeutel spuerbar.

Take-aways

Extended Thinking ist real, nicht Marketing. Tiefe Analyse wird messbar besser.
Nur bei der richtigen Aufgabe einsetzen. FAQ-Antworten gehoeren nicht dazu.
Modell-Mix ist Pflicht wenn man Token-Kosten unter Kontrolle haben will.
Datenpfad pruefen: Anthropic via AWS EU oder via Vertex AI europe-west6 (Anthropic-Garden), beide DSG-tauglich.