NCA Social Media
Grüner Context Window Fortschrittsbalken mit verblassenden Code-Panels

Warum dein KI-Agent nach 20 Minuten schlechtere Ergebnisse liefert

Das Context Window ist das Arbeitsgedächtnis deines KI-Agenten. Alles was der Agent sieht, liest und produziert landet dort: deine Anweisungen, gelesene Dateien, Tool-Responses, generierter Code. Und genau wie ein Schreibtisch der mit Papieren überquillt wird dieses Arbeitsgedächtnis irgendwann unübersichtlich. Der Agent verliert den Fokus, trifft schlechtere Entscheidungen und produziert Fehler die ihm am Anfang der Session nicht passiert wären.

Das Problem ist messbar. Anthropics eigene Forschung zu Claude Code zeigt dass die Qualität der Agenten-Outputs bei steigendem Context-Verbrauch sinkt, selbst wenn das technische Limit noch nicht erreicht ist. Der Fachbegriff dafür ist Context Rot: je mehr irrelevante Daten sich ansammeln desto schwerer fällt es dem Modell die relevanten Informationen zu finden. In diesem Artikel zeigen wir vier Strategien die das verhindern.

CYPRESS.IO Ambassador und IT Consultant für QA Engenieering und Qualität in PHP Projekten.

NCA Vibe Coding Consulting

Roland Golla ist Entwickler aus Leidenschaft – seit über 20 Jahren. Er hat hunderte Projekte begleitet, von Legacy-Refactoring bis KI-Integration. Bei Vibe Coding verbindet er das Beste aus beiden Welten: Die Geschwindigkeit von KI-generiertem Code mit der Qualität professioneller Softwareentwicklung. Kein Bullshit, keine Agentur-Floskeln – direkte Hilfe von jemandem, der selbst täglich im Code steckt.

Was ist das Context Window und warum hat es Grenzen

Das Context Window ist die maximale Textmenge die ein KI-Modell gleichzeitig verarbeiten kann. Claude Opus 4.6 hat ein Context Window von 1 Million Token, das entspricht ungefähr 750.000 Wörtern oder mehreren tausend Dateien. Klingt nach viel, ist in der Praxis aber schnell aufgebraucht.

Ein Token ist eine Texteinheit von etwa 4 Zeichen im Englischen und 3 Zeichen im Deutschen. In das Context Window fließen ein: dein System Prompt, die CLAUDE.md, alle Tool-Definitionen des MCP Servers, die gesamte Gesprächshistorie inklusive aller Tool-Aufrufe und deren Responses, gelesene Dateien und generierter Code. Bei einem typischen Vibe Coding Workflow mit 20 Tool-Aufrufen und Datei-Operationen sind schnell 100.000 bis 200.000 Token verbraucht.

Aber das technische Limit ist nicht das eigentliche Problem. Die Aufmerksamkeitsqualität sinkt schon deutlich früher. Forschung zeigt dass Modelle bei einem 1-Million-Token-Fenster die Performance bereits unter 256.000 Token zu degradieren beginnt. Anthropic beschreibt diesen Effekt als Context Pollution: irrelevante Daten verdrängen relevante Informationen und der Agent trifft schlechtere Entscheidungen.

Strategie 1 Compaction richtig einsetzen

Compaction ist die wichtigste Technik gegen Context Rot. Dabei wird der bisherige Gesprächsverlauf zusammengefasst und durch eine komprimierte Version ersetzt. Der Agent arbeitet danach mit dem kompakten Kontext weiter, ohne den Faden zu verlieren.

In Claude Code funktioniert das automatisch: bei 98% Context-Auslastung fasst das System den Verlauf zusammen, behält Architekturentscheidungen, offene Bugs und Implementierungsdetails und verwirft redundante Tool-Outputs. Du kannst Compaction auch manuell mit /compact auslösen, was erfahrene Entwickler regelmäßig und proaktiv tun.

Best Practices für Compaction:

  • Setze den Schwellenwert auf 85% statt 98%. Wer erst bei 98% kompaktiert riskiert dass die Zusammenfassung selbst nicht mehr ins Window passt. 85% gibt Puffer und reduziert Antwortzeiten um durchschnittlich 2,3 Sekunden.
  • Nutze /compact mit Anweisungen: /compact Fokus auf die API-Änderungen behalten steuert was in der Zusammenfassung priorisiert wird.
  • Strukturierte Prompts überleben Compaction besser. Listen und direkte Anweisungen werden mit 92% Treue erhalten, narrative Prompts nur mit 71%.
  • Schütze kritische Informationen über die CLAUDE.md: When compacting, always preserve the full list of modified files and any test commands.

Anthropic unterscheidet zwei Stufen: Compaction (reversibel, entfernt Daten die in der Umgebung existieren) und Summarization (verlustbehaftet, fasst die History per LLM zusammen). Die Faustregel lautet: Compaction zuerst, Summarization nur wenn Compaction nicht mehr reicht. So beschreibt es auch das Manus-Team, deren Agenten-Framework 2026 zu den am meisten beachteten gehört.

Strategie 2 Subagents für kontextintensive Aufgaben

Die mächtigste Waffe gegen Context Pollution sind Subagents. Ein Subagent arbeitet in einem eigenen, frischen Context Window und gibt am Ende nur eine kompakte Zusammenfassung an den Hauptagenten zurück. So bleibt der Hauptkontext sauber während die Recherche in einem separaten Fenster stattfindet.

Anthropics eigene Dokumentation beschreibt Subagents als eines der wirkungsvollsten Werkzeuge überhaupt: Since context is your fundamental constraint, subagents are one of the most powerful tools available. Der Grund ist einfach: Wenn ein Agent eine Codebase durchsucht liest er Dutzende Dateien die alle Token verbrauchen. Ein Subagent macht das in seinem eigenen Fenster und liefert nur das Ergebnis zurück.

Wann Subagents einsetzen:

  • Recherche: Statt den Hauptagenten durch 20 Dateien lesen zu lassen einen Subagenten beauftragen und nur die Zusammenfassung übernehmen.
  • Code Reviews: Jeder Subagent reviewt einen anderen Bereich der Codebase, der Hauptagent sammelt die Ergebnisse.
  • Exploratives Arbeiten: Wenn du nicht sicher bist ob ein Ansatz funktioniert lass einen Subagenten experimentieren ohne den Hauptkontext zu verschmutzen.

In Claude Code v2.x werden bis zu 5 gleichzeitige Subagents unterstützt. Ihre Outputs werden automatisch bei 30.000 Zeichen abgeschnitten, der volle Output wird auf die Festplatte geschrieben und per Dateipfad referenziert. Das verhindert dass ein einzelner Subagent den Hauptkontext sprengt.

Strategie 3 Frische Sessions und Task-Scoping

Der einfachste und oft wirksamste Tipp erfahrener Claude Code Nutzer: Ein Feature pro Session. Statt in einer einzigen Konversation von der Datenbankänderung über die API-Anpassung bis zum Frontend-Fix zu springen sollte jede Aufgabe ihre eigene Session bekommen. Nach Abschluss /clear ausführen und frisch starten.

Das klingt trivial, hat aber einen tiefgreifenden Effekt. Jede neue Session beginnt mit einem sauberen Context Window. Die CLAUDE.md wird automatisch geladen, die Tool-Definitionen sind frisch und der Agent hat maximale Kapazität für die eigentliche Aufgabe. Keine alten Datei-Inhalte, keine vergessenen Zwischenergebnisse, keine Fragmente aus dem letzten Debugging.

Practical Patterns:

  • Spec → Fresh Session: Lass den Agenten zuerst eine Spezifikation in eine SPEC.md schreiben. Starte dann eine neue Session die nur die Spec implementiert. Maximale Fokussierung.
  • Plan Mode nutzen: Mit Shift+Tab in Claude Code aktivierst du den Plan Mode. Der Agent liest Dateien und beantwortet Fragen ohne Änderungen zu machen. Erst wenn der Plan steht wechselst du in den Implementierungsmodus.
  • Persistenter Zustand: Schreibe Fortschritt in externe Dateien wie plan.md oder progress.md. Diese überleben Session-Wechsel und geben dem nächsten Agenten sofort Kontext.

Strategie 4 Token-Budget planen und Server-Responses optimieren

Context Window Management beginnt nicht erst beim Agenten sondern schon bei den Tools die er nutzt. Jede MCP Server Response, jede gelesene Datei und jede Tool-Definition frisst Token. Wer hier nicht aufpasst verschwendet den größten Teil seines Kontexts bevor der Agent überhaupt mit der eigentlichen Arbeit beginnt.

Die drei größten Token-Fresser:

  • Tool-Definitionen: Bei 20 MCP Tools können allein die Beschreibungen 10.000 bis 20.000 Token kosten. Claude Code v2.x löst das mit automatischem Tool Description Deferral: Wenn Tool-Beschreibungen mehr als 10% des Context Windows belegen werden sie automatisch ausgelagert und nur bei Bedarf über ein MCPSearch-Tool geladen.
  • Aufgeblähte Responses: Ein nicht optimierter MCP Server kann pro Aufruf 15.000 Zeichen zurückgeben von denen der Agent 1.500 braucht. In unserem Praxisbericht zur MCP Response Optimierung zeigen wir wie 90% Einsparung möglich sind.
  • Gesprächshistorie: Jede Tool-Response wird Teil der History und bei jedem weiteren Call mitgeschickt. 20 Calls mit je 15.000 Zeichen Response ergeben 300.000 Zeichen die permanent mitgeschleppt werden.

Die Lösung: Denke in Token-Budgets. Plane vor einer Session wie viel Context für die Aufgabe realistisch ist. Ein Standard-Task sollte unter 50.000 Token bleiben. Nutze /cost in Claude Code um den aktuellen Verbrauch zu prüfen. Und optimiere die Tools die der Agent nutzt, denn der effizienteste Komprimierungsalgorithmus ist der der unnötige Daten gar nicht erst ins Window lässt.

Context Engineering ist das neue Prompt Engineering

Anthropic hat den Begriff Context Engineering geprägt um den Paradigmenwechsel zu beschreiben: Es geht nicht mehr nur darum den perfekten Prompt zu schreiben sondern darum welche Informationen zu welchem Zeitpunkt im Context Window landen. Martin Fowler, eine der einflussreichsten Stimmen in der Software-Architektur, widmet dem Thema 2026 eine eigene Artikelserie.

Die Kernerkenntnis lautet: Finde die kleinste Menge hochsignaler Token die die Wahrscheinlichkeit deines gewünschten Ergebnisses maximiert. Das klingt abstrakt, hat aber sehr praktische Konsequenzen. Es bedeutet dass du nicht einfach alles in den Kontext wirfst was irgendwie relevant sein könnte. Stattdessen lieferst du dem Agenten genau die Informationen die er für den nächsten Schritt braucht, nicht mehr und nicht weniger.

Google beschreibt in seinem Agent Development Kit denselben Ansatz mit einem klaren Prinzip: Scope by default. Jeder Model-Call und jeder Subagent sieht nur den minimalen Kontext. Agents müssen sich zusätzliche Informationen explizit über Tools holen statt standardmäßig mit allem überflutet zu werden. Das ist ein fundamentaler Designwechsel: von Push (alles reinladen) zu Pull (gezielt nachladen).

Für Vibe Coding Workflows bei Never Code Alone setzen wir dieses Prinzip täglich um. Unser MCP Server liefert bei einer Seitenabfrage nur die Struktur (1.650 Zeichen) statt den vollen Content (15.800 Zeichen). Der Agent entscheidet dann selbst welche Blöcke er im Detail braucht. Das ist Context Engineering in der Praxis: der Agent bekommt eine Karte statt des gesamten Territoriums.

Fazit dein Agent ist nur so gut wie sein Kontext

Die Qualität deiner KI-Ergebnisse hängt nicht nur vom Modell ab sondern maßgeblich davon wie du den Kontext managst. Ein Claude Opus 4.6 mit verschmutztem Context Window liefert schlechtere Ergebnisse als ein Sonnet mit sauberem, fokussiertem Kontext.

Die vier Strategien auf einen Blick: Compaction proaktiv bei 85% statt reaktiv bei 98% einsetzen. Subagents für kontextintensive Recherche nutzen statt den Hauptkontext zu belasten. Frische Sessions pro Feature starten und Fortschritt in externe Dateien schreiben. Token-Budgets planen und Server-Responses optimieren bevor der Agent überhaupt startet.

Wer diese Prinzipien konsequent anwendet wird feststellen dass die gleichen KI-Modelle plötzlich deutlich bessere und zuverlässigere Ergebnisse liefern. Nicht weil das Modell besser wurde sondern weil es endlich die richtigen Informationen zur richtigen Zeit sieht.

Du willst deine Vibe Coding Workflows professionell aufsetzen? Wir helfen bei Context Engineering, MCP Server Optimierung und KI-Workflow-Architektur. roland@nevercodealone.de | +49 176 24747727

Deine KI-Agenten liefern nicht was sie sollen?

Wir analysieren deine KI-Workflows und zeigen dir wo Context-Optimierung den größten Hebel hat. Kostenlos und unverbindlich.

Häufig gestellte Fragen (FAQ)

Die wichtigsten Fragen rund um Context Window Management, Compaction und Token-Optimierung für KI-Agenten im Vibe Coding.

Was ist ein Context Window bei KI-Agenten 2026?

Das Context Window ist das Arbeitsgedächtnis eines KI-Modells. Es enthält alles was der Agent gleichzeitig sehen kann: System Prompt, Gesprächshistorie, Tool-Definitionen, gelesene Dateien und generierte Antworten. Claude Opus 4.6 hat ein Context Window von 1 Million Token.

Wie viele Token verbraucht ein typischer Vibe Coding Workflow 2026?

Ein typischer Workflow mit 20 Tool-Aufrufen und Datei-Operationen verbraucht 100.000 bis 200.000 Token. Bei nicht optimierten MCP Servern kann allein die Gesprächshistorie auf 300.000 Zeichen anwachsen wenn jede Response 15.000 Zeichen umfasst.

Was ist Context Rot und wie erkennt man ihn 2026?

Context Rot beschreibt den Qualitätsverlust wenn sich irrelevante Daten im Context Window ansammeln. Erkennbar wird er wenn der Agent vergangene Anweisungen ignoriert, Fehler wiederholt die er vorher nicht gemacht hat oder Code generiert der nicht zum Projekt passt.

Was ist Compaction und wie funktioniert sie bei Claude Code 2026?

Compaction fasst den bisherigen Gesprächsverlauf zusammen und ersetzt ihn durch eine komprimierte Version. Claude Code löst automatische Compaction bei 98% Context-Auslastung aus. Manuell kann sie jederzeit mit dem Befehl /compact ausgelöst werden.

Wann sollte man Compaction manuell auslösen 2026?

Erfahrene Entwickler setzen den Schwellenwert auf 85% statt der Standard-98%. Die Faustregel lautet: kompaktiere proaktiv nach Abschluss einer Teilaufgabe, bevor du die nächste startest. So hat der Agent für die neue Aufgabe maximale Kapazität.

Was sind Subagents und wie helfen sie beim Context Management?

Subagents sind eigenständige Agenten die in einem eigenen Context Window arbeiten. Sie führen kontextintensive Aufgaben wie Codebase-Recherche durch und geben nur eine kompakte Zusammenfassung an den Hauptagenten zurück. Claude Code unterstützt bis zu 5 gleichzeitige Subagents.

Wie vermeide ich Context Pollution bei langen Sessions 2026?

Drei Sofortmaßnahmen: Starte eine frische Session pro Feature statt alles in einer Konversation zu machen. Nutze Subagents für explorative Aufgaben. Und schreibe Zwischenergebnisse in externe Dateien statt sie nur im Kontext zu halten.

Was ist Context Engineering und warum ist es wichtiger als Prompt Engineering?

Context Engineering beschreibt die Kunst zu steuern welche Informationen wann im Context Window landen. Während Prompt Engineering den einzelnen Prompt optimiert optimiert Context Engineering den gesamten Informationsfluss. Anthropic und Google beschreiben es als den entscheidenden Faktor für Agenten-Qualität 2026.

Wie viel Token sollte die CLAUDE.md maximal verbrauchen?

Die Community empfiehlt unter 3.000 Token für die CLAUDE.md, idealerweise 50 bis 100 Zeilen. Jede Zeile konkurriert um Aufmerksamkeit. Die Faustregel: Wenn eine Anweisung entfernt werden kann ohne dass Claude Fehler macht gehört sie nicht in die CLAUDE.md.

Was ist Tool Description Deferral bei Claude Code?

Eine Optimierung in Claude Code v2.x die automatisch greift wenn Tool-Beschreibungen mehr als 10% des Context Windows belegen. Die Beschreibungen werden ausgelagert und nur bei Bedarf über ein MCPSearch Tool nachgeladen. Das spart bei 20 Tools bis zu 20.000 Token.

Wie wirkt sich Context Management auf die Kosten von KI-Projekten aus?

Direkt und messbar. Jedes Token das verarbeitet wird kostet Geld. Ein Workflow der 300.000 Token verbraucht statt optimierter 30.000 kostet das Zehnfache. Dazu kommen indirekte Kosten durch schlechtere Ergebnisse und längere Iterationszyklen.

Kann Never Code Alone bei der Context-Optimierung helfen?

Ja. Wir optimieren MCP Server Responses, CLAUDE.md Konfigurationen und Workflow-Architekturen für minimalen Token-Verbrauch bei maximaler Ergebnisqualität. Kontakt: roland@nevercodealone.de oder +49 176 24747727.