Vibe Coding Consulting
Professioneller Support für Vibe Coder: Code Review, Debugging, Deployment. Wir bringen dein Claude Code Projekt sicher in Production.
Mehr erfahren
Das Context Window ist das Arbeitsgedächtnis deines KI-Agenten. Alles was der Agent sieht, liest und produziert landet dort: deine Anweisungen, gelesene Dateien, Tool-Responses, generierter Code. Und genau wie ein Schreibtisch der mit Papieren überquillt wird dieses Arbeitsgedächtnis irgendwann unübersichtlich. Der Agent verliert den Fokus, trifft schlechtere Entscheidungen und produziert Fehler die ihm am Anfang der Session nicht passiert wären.
Das Problem ist messbar. Anthropics eigene Forschung zu Claude Code zeigt dass die Qualität der Agenten-Outputs bei steigendem Context-Verbrauch sinkt, selbst wenn das technische Limit noch nicht erreicht ist. Der Fachbegriff dafür ist Context Rot: je mehr irrelevante Daten sich ansammeln desto schwerer fällt es dem Modell die relevanten Informationen zu finden. In diesem Artikel zeigen wir vier Strategien die das verhindern.
Roland Golla ist Entwickler aus Leidenschaft – seit über 20 Jahren. Er hat hunderte Projekte begleitet, von Legacy-Refactoring bis KI-Integration. Bei Vibe Coding verbindet er das Beste aus beiden Welten: Die Geschwindigkeit von KI-generiertem Code mit der Qualität professioneller Softwareentwicklung. Kein Bullshit, keine Agentur-Floskeln – direkte Hilfe von jemandem, der selbst täglich im Code steckt.
Das Context Window ist die maximale Textmenge die ein KI-Modell gleichzeitig verarbeiten kann. Claude Opus 4.6 hat ein Context Window von 1 Million Token, das entspricht ungefähr 750.000 Wörtern oder mehreren tausend Dateien. Klingt nach viel, ist in der Praxis aber schnell aufgebraucht.
Ein Token ist eine Texteinheit von etwa 4 Zeichen im Englischen und 3 Zeichen im Deutschen. In das Context Window fließen ein: dein System Prompt, die CLAUDE.md, alle Tool-Definitionen des MCP Servers, die gesamte Gesprächshistorie inklusive aller Tool-Aufrufe und deren Responses, gelesene Dateien und generierter Code. Bei einem typischen Vibe Coding Workflow mit 20 Tool-Aufrufen und Datei-Operationen sind schnell 100.000 bis 200.000 Token verbraucht.
Aber das technische Limit ist nicht das eigentliche Problem. Die Aufmerksamkeitsqualität sinkt schon deutlich früher. Forschung zeigt dass Modelle bei einem 1-Million-Token-Fenster die Performance bereits unter 256.000 Token zu degradieren beginnt. Anthropic beschreibt diesen Effekt als Context Pollution: irrelevante Daten verdrängen relevante Informationen und der Agent trifft schlechtere Entscheidungen.
Compaction ist die wichtigste Technik gegen Context Rot. Dabei wird der bisherige Gesprächsverlauf zusammengefasst und durch eine komprimierte Version ersetzt. Der Agent arbeitet danach mit dem kompakten Kontext weiter, ohne den Faden zu verlieren.
In Claude Code funktioniert das automatisch: bei 98% Context-Auslastung fasst das System den Verlauf zusammen, behält Architekturentscheidungen, offene Bugs und Implementierungsdetails und verwirft redundante Tool-Outputs. Du kannst Compaction auch manuell mit /compact auslösen, was erfahrene Entwickler regelmäßig und proaktiv tun.
Best Practices für Compaction:
/compact mit Anweisungen: /compact Fokus auf die API-Änderungen behalten steuert was in der Zusammenfassung priorisiert wird.When compacting, always preserve the full list of modified files and any test commands.Anthropic unterscheidet zwei Stufen: Compaction (reversibel, entfernt Daten die in der Umgebung existieren) und Summarization (verlustbehaftet, fasst die History per LLM zusammen). Die Faustregel lautet: Compaction zuerst, Summarization nur wenn Compaction nicht mehr reicht. So beschreibt es auch das Manus-Team, deren Agenten-Framework 2026 zu den am meisten beachteten gehört.
Professioneller Support für Vibe Coder: Code Review, Debugging, Deployment. Wir bringen dein Claude Code Projekt sicher in Production.
Mehr erfahrenDie mächtigste Waffe gegen Context Pollution sind Subagents. Ein Subagent arbeitet in einem eigenen, frischen Context Window und gibt am Ende nur eine kompakte Zusammenfassung an den Hauptagenten zurück. So bleibt der Hauptkontext sauber während die Recherche in einem separaten Fenster stattfindet.
Anthropics eigene Dokumentation beschreibt Subagents als eines der wirkungsvollsten Werkzeuge überhaupt: Since context is your fundamental constraint, subagents are one of the most powerful tools available. Der Grund ist einfach: Wenn ein Agent eine Codebase durchsucht liest er Dutzende Dateien die alle Token verbrauchen. Ein Subagent macht das in seinem eigenen Fenster und liefert nur das Ergebnis zurück.
Wann Subagents einsetzen:
In Claude Code v2.x werden bis zu 5 gleichzeitige Subagents unterstützt. Ihre Outputs werden automatisch bei 30.000 Zeichen abgeschnitten, der volle Output wird auf die Festplatte geschrieben und per Dateipfad referenziert. Das verhindert dass ein einzelner Subagent den Hauptkontext sprengt.
Der einfachste und oft wirksamste Tipp erfahrener Claude Code Nutzer: Ein Feature pro Session. Statt in einer einzigen Konversation von der Datenbankänderung über die API-Anpassung bis zum Frontend-Fix zu springen sollte jede Aufgabe ihre eigene Session bekommen. Nach Abschluss /clear ausführen und frisch starten.
Das klingt trivial, hat aber einen tiefgreifenden Effekt. Jede neue Session beginnt mit einem sauberen Context Window. Die CLAUDE.md wird automatisch geladen, die Tool-Definitionen sind frisch und der Agent hat maximale Kapazität für die eigentliche Aufgabe. Keine alten Datei-Inhalte, keine vergessenen Zwischenergebnisse, keine Fragmente aus dem letzten Debugging.
Practical Patterns:
Context Window Management beginnt nicht erst beim Agenten sondern schon bei den Tools die er nutzt. Jede MCP Server Response, jede gelesene Datei und jede Tool-Definition frisst Token. Wer hier nicht aufpasst verschwendet den größten Teil seines Kontexts bevor der Agent überhaupt mit der eigentlichen Arbeit beginnt.
Die drei größten Token-Fresser:
Die Lösung: Denke in Token-Budgets. Plane vor einer Session wie viel Context für die Aufgabe realistisch ist. Ein Standard-Task sollte unter 50.000 Token bleiben. Nutze /cost in Claude Code um den aktuellen Verbrauch zu prüfen. Und optimiere die Tools die der Agent nutzt, denn der effizienteste Komprimierungsalgorithmus ist der der unnötige Daten gar nicht erst ins Window lässt.
Anthropic hat den Begriff Context Engineering geprägt um den Paradigmenwechsel zu beschreiben: Es geht nicht mehr nur darum den perfekten Prompt zu schreiben sondern darum welche Informationen zu welchem Zeitpunkt im Context Window landen. Martin Fowler, eine der einflussreichsten Stimmen in der Software-Architektur, widmet dem Thema 2026 eine eigene Artikelserie.
Die Kernerkenntnis lautet: Finde die kleinste Menge hochsignaler Token die die Wahrscheinlichkeit deines gewünschten Ergebnisses maximiert. Das klingt abstrakt, hat aber sehr praktische Konsequenzen. Es bedeutet dass du nicht einfach alles in den Kontext wirfst was irgendwie relevant sein könnte. Stattdessen lieferst du dem Agenten genau die Informationen die er für den nächsten Schritt braucht, nicht mehr und nicht weniger.
Google beschreibt in seinem Agent Development Kit denselben Ansatz mit einem klaren Prinzip: Scope by default. Jeder Model-Call und jeder Subagent sieht nur den minimalen Kontext. Agents müssen sich zusätzliche Informationen explizit über Tools holen statt standardmäßig mit allem überflutet zu werden. Das ist ein fundamentaler Designwechsel: von Push (alles reinladen) zu Pull (gezielt nachladen).
Für Vibe Coding Workflows bei Never Code Alone setzen wir dieses Prinzip täglich um. Unser MCP Server liefert bei einer Seitenabfrage nur die Struktur (1.650 Zeichen) statt den vollen Content (15.800 Zeichen). Der Agent entscheidet dann selbst welche Blöcke er im Detail braucht. Das ist Context Engineering in der Praxis: der Agent bekommt eine Karte statt des gesamten Territoriums.
Die Qualität deiner KI-Ergebnisse hängt nicht nur vom Modell ab sondern maßgeblich davon wie du den Kontext managst. Ein Claude Opus 4.6 mit verschmutztem Context Window liefert schlechtere Ergebnisse als ein Sonnet mit sauberem, fokussiertem Kontext.
Die vier Strategien auf einen Blick: Compaction proaktiv bei 85% statt reaktiv bei 98% einsetzen. Subagents für kontextintensive Recherche nutzen statt den Hauptkontext zu belasten. Frische Sessions pro Feature starten und Fortschritt in externe Dateien schreiben. Token-Budgets planen und Server-Responses optimieren bevor der Agent überhaupt startet.
Wer diese Prinzipien konsequent anwendet wird feststellen dass die gleichen KI-Modelle plötzlich deutlich bessere und zuverlässigere Ergebnisse liefern. Nicht weil das Modell besser wurde sondern weil es endlich die richtigen Informationen zur richtigen Zeit sieht.
Du willst deine Vibe Coding Workflows professionell aufsetzen? Wir helfen bei Context Engineering, MCP Server Optimierung und KI-Workflow-Architektur. roland@nevercodealone.de | +49 176 24747727
Wir analysieren deine KI-Workflows und zeigen dir wo Context-Optimierung den größten Hebel hat. Kostenlos und unverbindlich.
Die wichtigsten Fragen rund um Context Window Management, Compaction und Token-Optimierung für KI-Agenten im Vibe Coding.
Das Context Window ist das Arbeitsgedächtnis eines KI-Modells. Es enthält alles was der Agent gleichzeitig sehen kann: System Prompt, Gesprächshistorie, Tool-Definitionen, gelesene Dateien und generierte Antworten. Claude Opus 4.6 hat ein Context Window von 1 Million Token.
Ein typischer Workflow mit 20 Tool-Aufrufen und Datei-Operationen verbraucht 100.000 bis 200.000 Token. Bei nicht optimierten MCP Servern kann allein die Gesprächshistorie auf 300.000 Zeichen anwachsen wenn jede Response 15.000 Zeichen umfasst.
Context Rot beschreibt den Qualitätsverlust wenn sich irrelevante Daten im Context Window ansammeln. Erkennbar wird er wenn der Agent vergangene Anweisungen ignoriert, Fehler wiederholt die er vorher nicht gemacht hat oder Code generiert der nicht zum Projekt passt.
Compaction fasst den bisherigen Gesprächsverlauf zusammen und ersetzt ihn durch eine komprimierte Version. Claude Code löst automatische Compaction bei 98% Context-Auslastung aus. Manuell kann sie jederzeit mit dem Befehl /compact ausgelöst werden.
Erfahrene Entwickler setzen den Schwellenwert auf 85% statt der Standard-98%. Die Faustregel lautet: kompaktiere proaktiv nach Abschluss einer Teilaufgabe, bevor du die nächste startest. So hat der Agent für die neue Aufgabe maximale Kapazität.
Subagents sind eigenständige Agenten die in einem eigenen Context Window arbeiten. Sie führen kontextintensive Aufgaben wie Codebase-Recherche durch und geben nur eine kompakte Zusammenfassung an den Hauptagenten zurück. Claude Code unterstützt bis zu 5 gleichzeitige Subagents.
Drei Sofortmaßnahmen: Starte eine frische Session pro Feature statt alles in einer Konversation zu machen. Nutze Subagents für explorative Aufgaben. Und schreibe Zwischenergebnisse in externe Dateien statt sie nur im Kontext zu halten.
Context Engineering beschreibt die Kunst zu steuern welche Informationen wann im Context Window landen. Während Prompt Engineering den einzelnen Prompt optimiert optimiert Context Engineering den gesamten Informationsfluss. Anthropic und Google beschreiben es als den entscheidenden Faktor für Agenten-Qualität 2026.
Die Community empfiehlt unter 3.000 Token für die CLAUDE.md, idealerweise 50 bis 100 Zeilen. Jede Zeile konkurriert um Aufmerksamkeit. Die Faustregel: Wenn eine Anweisung entfernt werden kann ohne dass Claude Fehler macht gehört sie nicht in die CLAUDE.md.
Eine Optimierung in Claude Code v2.x die automatisch greift wenn Tool-Beschreibungen mehr als 10% des Context Windows belegen. Die Beschreibungen werden ausgelagert und nur bei Bedarf über ein MCPSearch Tool nachgeladen. Das spart bei 20 Tools bis zu 20.000 Token.
Direkt und messbar. Jedes Token das verarbeitet wird kostet Geld. Ein Workflow der 300.000 Token verbraucht statt optimierter 30.000 kostet das Zehnfache. Dazu kommen indirekte Kosten durch schlechtere Ergebnisse und längere Iterationszyklen.
Ja. Wir optimieren MCP Server Responses, CLAUDE.md Konfigurationen und Workflow-Architekturen für minimalen Token-Verbrauch bei maximaler Ergebnisqualität. Kontakt: roland@nevercodealone.de oder +49 176 24747727.
Agentic Coding Patterns: Die fünf Anthropic-Workflow-Muster für professionelle KI-Agenten. Prompt Chaining, Routing, Parallelisierung und Orchestrator-Workers.
MCP Server Response Formate für KI-Agenten optimieren und bis zu 90% Token einsparen. Praxisbericht mit konkreten Vorher-Nachher-Vergleichen am Beispiel eines Sulu CMS MCP Servers.
Vibe Coding Prompting 2026: Lerne effektive Prompts für KI-Coding-Agents wie Claude Code und Cursor. Context Engineering, Rules Files und iterative Workflows.
Vibe Coding erzeugt unsicheren Code: 69 Schwachstellen in 15 Apps gefunden. Lerne Security Best Practices für KI-gestützte Entwicklung. NCA Consulting hilft.