Claude Opus 4.7 Extended Thinking, was es wirklich besser kann
Anthropic hat Opus 4.7 mit Extended Thinking ausgeliefert. Drei Wochen Praxis-Test: wofuer es sich lohnt und wann Sonnet reicht.
Anthropic hat Mitte April Opus 4.7 mit Extended Thinking ausgeliefert. Das Modell kann jetzt selber entscheiden, wie lange es ueber eine Frage nachdenkt: 5 Sekunden bei einer FAQ, 8 Minuten bei einer Compliance-Analyse.
Drei Wochen Praxis-Test in meinen Kursen, hier das Resultat.
Was Extended Thinking ist
Vor jedem Output durchlaeuft das Modell eine sichtbare Denk-Schleife. Du siehst die Gedanken, die Korrekturen, die Sackgassen. Dann kommt die Antwort.
In der Anthropic-Konsole sieht das so aus, dass ein eingeklappter “Thinking”-Block die Schritte zeigt: “Lass mich diese Frage in drei Aspekte zerlegen… Aspekt A waere…, aber Achtung, hier gibt es einen Sonderfall… ich pruefe den… ja, also Aspekt A nochmal anders formuliert…”.
Das ist nicht Theater. Das Modell wird messbar besser bei mehrstufigen Aufgaben.
Wo es sich lohnt
Compliance-Analyse: Du gibst ihm einen Vertrag plus revDSG-Anforderungen, er findet Konflikte, die Sonnet 4.6 uebersehen hat. Extra-Kosten: ja. Wert: Faktor 5 wenn der Anwalts-Stundensatz dahinter steht.
Mehrstufige Recherche: “Gegen den Hintergrund von X, vergleiche A und B, beruecksichtige aber Y und Z, und schreibe es fuer eine Geschaeftsleitung”. Sonnet liefert sauber, Opus liefert die richtigen Schwerpunkte.
Code-Reviews mit System: Bug nicht nur finden, sondern erklaeren warum es passiert ist und wie Architektur-Aenderung das verhindern wuerde.
Wo es nicht hilft
FAQ und Standard-Texte: Mail-Antwort, Stellenanzeige, Newsletter. Sonnet 4.6 ist gleich gut, billiger und schneller.
Recherche mit Quellen: Perplexity Deep Research macht das besser, weil es ueber Web sucht. Opus kann nur denken, nicht recherchieren.
Bilder verstehen: Multimodal-Faehigkeiten sind in Opus drin, aber Gemini 2.5 Pro ist hier weiterhin Klassenprimus.
Praxis-Test, drei Aufgaben
Ich habe denselben Auftrag drei Modellen gegeben:
Auftrag: “Pruefe die Datenschutz-Erklaerung der Klubschule Migros (Link) und identifiziere drei Punkte, wo sie den revDSG-Anforderungen nach Stand April 2026 nicht ganz entspricht. Begruende rechtlich.”
| Modell | Zeit | Qualitaet | Kosten |
|---|---|---|---|
| Sonnet 4.6 | 12 s | Drei Punkte, einer davon ueberzogen | 0.04 USD |
| Opus 4.7 Standard | 18 s | Drei Punkte, alle nachvollziehbar | 0.18 USD |
| Opus 4.7 Extended Thinking | 4 Min | Sechs Punkte, davon fuenf belegt mit Artikel-Verweis | 0.62 USD |
Extended Thinking war 15-mal teurer als Sonnet, hat aber doppelt so viele richtige Punkte gefunden. Fuer eine Anwaltskanzlei lohnt sich das. Fuer einen Marketing-Manager nicht.
Mein Workflow seit drei Wochen
- Standard-Aufgaben (80%): Gemini 2.5 Flash auf Vertex europe-west6
- Texte mit Stil-Anspruch (15%): Claude Sonnet 4.6
- Mehrstufige Analyse (3%): Claude Opus 4.7 Standard
- Compliance, Code-Review, kritische Recherche (2%): Opus 4.7 Extended Thinking
Das hat meine Token-Kosten halbiert, ohne Qualitaetsverlust auf den Aufgaben, wo es zaehlt.
Wichtig fuer KMU
Wenn du Pro-Tarif ueberlegst, ist Opus 4.7 ein guter Grund. Aber: Extended Thinking nur bei drei bis fuenf Aufgaben pro Woche, wo wirklich tiefe Analyse Wert hat. Fuer den Rest reicht Sonnet oder sogar Haiku.
In den FirmenGPT-Konzepten, die ich aktuell baue, ist Opus immer als Eskalations-Stufe drin: 95% Anfragen laufen auf Flash, 5% schwere Anfragen werden automatisch auf Opus eskaliert. Fuer den Nutzer unsichtbar, fuer den Geldbeutel spuerbar.
Take-aways
- Extended Thinking ist real, nicht Marketing. Tiefe Analyse wird messbar besser.
- Nur bei der richtigen Aufgabe einsetzen. FAQ-Antworten gehoeren nicht dazu.
- Modell-Mix ist Pflicht wenn man Token-Kosten unter Kontrolle haben will.
- Datenpfad pruefen: Anthropic via AWS EU oder via Vertex AI europe-west6 (Anthropic-Garden), beide DSG-tauglich.