Caddy ist der Open Source Webserver mit automatischem HTTPS und Reverse Proxy. NCA ordnet Caddy als sicheres Gateway für selbst gehostete Stacks wie n8n, Ollama und Coolify ein.
Headroom ist ein Open Source Context Compression Layer für KI Agenten, der Tool Outputs, Logs, RAG Chunks, Dateien und Konversationsverlauf komprimiert, bevor sie das Sprachmodell erreichen. Das Ergebnis sind 60 bis 95 Prozent weniger Tokens bei praktisch gleichen Antworten. Headroom läuft lokal auf der eigenen Maschine, ist unter Apache 2.0 lizenziert und arbeitet reversibel, sodass Originale bei Bedarf wieder abrufbar bleiben.
KI Agenten wie Claude Code, Codex oder Cursor lesen ständig riesige Mengen an Kontext. Ein einzelner Code Search Lauf, ein langes Log oder ein RAG Treffer fressen schnell zehntausende Tokens, von denen das Modell nur einen Bruchteil wirklich braucht. Headroom setzt sich zwischen Agent und Sprachmodell und reduziert genau diesen Ballast, ohne die für die Antwort relevanten Informationen zu verlieren.
Anders als gehostete Compression Dienste schickt Headroom keine Daten an einen fremden Server. Prompts, Logs und Codebase bleiben lokal, die Verarbeitung passiert auf der eigenen Hardware. Dieser lokal first Ansatz ist für datenschutzbewusste Teams wichtig und ordnet das Projekt in unser Open Source Projekte Glossar ein, in dem wir Werkzeuge mit DSGVO Bezug sammeln.
Bei Never Code Alone arbeiten wir täglich mit Terminal Agents wie Claude Code und OpenCode. Wir kennen das Problem aus erster Hand: Je größer ein Projekt, desto schneller läuft das Context Window voll, und desto teurer und langsamer werden die Antworten. Context Engineering entscheidet deshalb im Alltag über Geschwindigkeit und Kosten von KI gestützter Entwicklung.
Wir helfen Teams, Werkzeuge wie Headroom richtig einzuordnen und in den eigenen Stack zu integrieren. Im Vibe Coding Consulting zeigen wir, wie ein effizienter Agenten Workflow aussieht, vom Setup lokaler Modelle mit Ollama über die Auswahl passender KI Modelle bis zu den Best Practices für sauberen Kontext. Verwandte Open Source Bausteine wie das KI Agenten Framework nWave oder die Codebase Intelligence Fallow gehören in denselben schlanken, kontrollierten Entwicklungsprozess.
Finde das passende Angebot für dein Projekt
Hey! Ich bin CodeBot. Lass uns herausfinden, wie wir dein Projekt zum Fliegen bringen.
Was soll entstehen?
Headroom besteht aus mehreren spezialisierten Komponenten, die nacheinander arbeiten. Ein ContentRouter erkennt zuerst den Typ des Inhalts und wählt den passenden Kompressor. JSON, Code und Prosa werden jeweils unterschiedlich behandelt, damit nichts Wesentliches verloren geht.
Die wichtigsten Bausteine im Überblick:
Der reversible Ansatz über CCR ist ein wichtiger Unterschied zu vielen anderen Lösungen. Komprimierung bedeutet hier keinen endgültigen Informationsverlust. Wenn das Modell ein Detail aus dem Original braucht, ruft es dieses über das Retrieval Tool gezielt ab. Innerhalb der konfigurierten Aufbewahrungszeit bleibt also alles erreichbar.
Headroom lässt sich auf vier Wegen einbinden, je nachdem wie tief der Eingriff in den eigenen Code sein soll. Vom einzeiligen Funktionsaufruf bis zum vollständigen MCP Server deckt das Projekt unterschiedliche Integrationsgrade ab. Die folgende Tabelle ordnet die Modi nach Aufwand und Einsatzszenario.
| Modus | Einbindung | Geeignet für |
|---|---|---|
| Library | compress(messages) in Python oder TypeScript | Inline in der eigenen App |
| Proxy | headroom proxy auf Port 8787, kein Code Eingriff | Jede Sprache, jeder Client |
| Agent Wrap | headroom wrap claude oder codex oder cursor | Coding Agents mit einem Befehl |
| MCP Server | headroom_compress, headroom_retrieve, headroom_stats | Jeder MCP Client |
Die meisten Compression Ansätze schrumpfen nur den Prompt, den du sendest. Headroom geht weiter und reduziert auch die Tokens, die das Modell zurückschreibt. Das ist relevant, weil Output bei starken Modellen deutlich teurer ist als Input. Ein großer Teil dieser Ausgabe ist Ballast: Höflichkeitsfloskeln, erneut abgedruckter Code und tiefes Nachdenken bei reinen Routine Schritten.
Zwei Mechanismen greifen hier. Verbosity Steering hängt einen kurzen Hinweis an den Systemprompt, der das Modell zu knapperen Antworten anhält, ohne den Prompt Cache zu brechen. Effort Routing senkt die Denktiefe genau dann, wenn ein Schritt nur das Fortsetzen nach einem Tool Ergebnis ist, etwa nach dem Lesen einer Datei oder einem grünen Test. Neue Fragen und Fehler behalten die volle Tiefe.
Die Einsparungen stammen aus echten Agenten Workloads. Bei einer Code Suche über 100 Treffer sinken die Tokens laut Projekt von 17.765 auf 1.408, also um 92 Prozent. Beim Debugging eines SRE Incidents fällt der Verbrauch von 65.694 auf 5.118 Tokens, ebenfalls 92 Prozent. GitHub Issue Triage spart 73 Prozent, eine breite Codebase Exploration noch 47 Prozent.
Die Antwortqualität bleibt dabei erhalten. Auf dem Mathe Benchmark GSM8K liegt die Trefferquote mit und ohne Headroom identisch bei 0,870. Bei TruthfulQA verbessert sich der Wert sogar leicht. Das Modell liefert also keine schlechteren Antworten. Es findet dieselbe Antwort mit weniger Kontext.
Compression Tools unterscheiden sich vor allem in der Architektur. Gehostete Dienste wie Compresr oder Token Company schicken den zu komprimierenden Text an ihre eigene API. Headroom dagegen läuft vollständig lokal, die Daten verlassen die eigene Infrastruktur nicht. Für Unternehmen, die mit sensiblem Code, Kundendaten oder internen Logs arbeiten, ist das ein klarer DSGVO Vorteil.
Dieser Ansatz passt zu unserer Linie bei Never Code Alone. Wir betreiben unsere KI Inferenz bevorzugt lokal über Ollama und setzen für eigene Produkte konsequent auf europäische und datenschutzfreundliche Werkzeuge. Wer eine kommerzielle Lösung durch eine quelloffene Alternative ersetzen will, findet in unserer DSGVO konformen Migration die passende Begleitung.
Headroom ist kein Selbstzweck. Es lohnt sich vor allem, wenn du täglich mit KI Coding Agents arbeitest und Tokens sparen willst, ohne deinen Code umzubauen. Auch wer über mehrere Agenten hinweg arbeitet und einen gemeinsamen Speicher braucht, profitiert vom Cross Agent Memory. Und wo reversible Komprimierung gebraucht wird, ist das Projekt stark.
Überspringen kannst du Headroom, wenn du ohnehin nur die native Komprimierung eines einzelnen Anbieters nutzt und keinen agentenübergreifenden Speicher brauchst. Auch in stark abgeschotteten Umgebungen, in denen keine lokalen Prozesse laufen dürfen, passt der Ansatz nicht. Ob Headroom für dein Projekt das richtige Werkzeug ist, klären wir am besten konkret am Use Case.
Das Projekt beschreibt seinen Zweck in der eigenen README am treffendsten:
The context compression layer for AI agents. Same answers, fraction of the tokens.
Headroom README, GitHub, 2026
Wir installieren Headroom nicht blind. Für uns ist es vor allem ein gut gemachtes Beispiel für Context Engineering. Die Idee, Inhalte nach Typ zu routen und nur das Nötige ans Modell zu geben, ist genau das, was wir in unseren eigenen Agenten Workflows anstreben. Wer mit Vibe Coding Tools arbeitet, kennt die Token Grenze als reale Bremse.
In Beratungsprojekten sehen wir regelmäßig, dass der ungefilterte Kontext das eigentliche Problem ist und nicht die Wahl des Modells. Ein aufgeräumter Workflow mit klaren Best Practices, lokalen Modellen über Ollama und durchdachter Werkzeugauswahl bringt oft mehr als das nächstgrößere Modell. Verwandte Bausteine wie VoiceMode oder Neovim gehören zum selben Open Source Ökosystem rund um Claude Code.
Roland Golla ist Entwickler aus Leidenschaft – seit über 20 Jahren. Er hat hunderte Projekte begleitet, von Legacy-Refactoring bis KI-Integration. Bei Vibe Coding verbindet er das Beste aus beiden Welten: Die Geschwindigkeit von KI-generiertem Code mit der Qualität professioneller Softwareentwicklung. Kein Bullshit, keine Agentur-Floskeln – direkte Hilfe von jemandem, der selbst täglich im Code steckt.
Hier beantworten wir die häufigsten Fragen zu Headroom, Context Compression und Token Optimierung, die uns im Beratungsalltag rund um KI gestützte Entwicklung begegnen.
Headroom ist ein Open Source Context Compression Layer für KI Agenten unter Apache 2.0. Es komprimiert Tool Outputs, Logs, RAG Chunks und Dateien lokal, bevor sie das Sprachmodell erreichen, und spart so 60 bis 95 Prozent Tokens bei gleichen Antworten. Verfügbar als Library, Proxy und MCP Server.
Laut Projekt liegt die Einsparung je nach Workload zwischen 47 und 92 Prozent. Eine Code Suche über 100 Treffer fällt von 17.765 auf 1.408 Tokens, ein SRE Incident Debugging von 65.694 auf 5.118 Tokens. Die genaue Ersparnis hängt vom Inhaltstyp und der Menge an redundantem Kontext ab.
Headroom unterstützt Claude Code, Codex, Cursor, Aider, Copilot CLI und OpenClaw direkt über headroom wrap. Jeder OpenAI kompatible Client lässt sich über den Proxy anbinden. Als MCP Server steht Headroom jedem MCP fähigen Client zur Verfügung.
Headroom läuft lokal auf der eigenen Maschine, Daten verlassen die eigene Infrastruktur nicht. Damit ist es strukturell datenschutzfreundlicher als gehostete Compression Dienste, die Text an eine fremde API senden. Eine vollständige DSGVO Bewertung hängt aber immer vom konkreten Gesamtsystem ab.
Headroom ist Open Source unter Apache 2.0 und damit kostenlos nutzbar, auch kommerziell. Kosten entstehen höchstens indirekt durch Einrichtung, Betrieb und Wartung im eigenen Stack. Die eingesparten Tokens senken im Gegenzug die laufenden Kosten für API Aufrufe an das Sprachmodell.
Nein, nicht endgültig. Headroom arbeitet reversibel über die Komponente CCR. Originale werden lokal zwischengespeichert, und das Modell kann sie bei Bedarf über ein Retrieval Tool zurückholen. Innerhalb der konfigurierten Aufbewahrungszeit bleibt also der vollständige Kontext erreichbar.
Die Library bindet Komprimierung per Funktionsaufruf direkt in den eigenen Code ein. Der Proxy sitzt ohne Code Eingriff zwischen Agent und Anbieter und funktioniert mit jeder Sprache. Der MCP Server stellt Komprimierung und Retrieval als Tools bereit, die jeder MCP Client nutzen kann.
Headroom komprimiert JSON über den SmartCrusher, Quellcode AST basiert über den CodeCompressor und Fließtext über das Modell Kompress base. Der CodeCompressor unterstützt Python, JavaScript, Go, Rust, Java und C++. Ein ContentRouter erkennt den Typ automatisch und wählt den passenden Kompressor.
Neben dem gesendeten Prompt reduziert Headroom optional auch die Tokens, die das Modell zurückschreibt. Verbosity Steering hält das Modell zu knapperen Antworten an, Effort Routing senkt die Denktiefe bei reinen Routine Schritten. Das ist relevant, weil Output bei starken Modellen teurer ist als Input.
Headroom wird sehr aktiv gepflegt. Das Repository zählt über 1.600 Commits und mehr als 150 Releases, die jüngste Version stammt von Mitte Juni 2026. Mit über 37.000 Sternen auf GitHub und einer aktiven Discord Community gehört das Projekt zu den sichtbaren Werkzeugen im Bereich Context Engineering.
Für die reine Komprimierung nicht zwingend. Das Sprachmodell Kompress base und die Laufzeit lassen sich offline vorhalten, etwa über den HuggingFace Offline Modus. Lediglich der initiale Download der Modelle und optionaler Laufzeit Bibliotheken erfolgt über das Netz. Danach läuft die Komprimierung lokal.
Wer ausschließlich die native Komprimierung eines einzelnen Anbieters nutzt und keinen agentenübergreifenden Speicher braucht, gewinnt durch Headroom wenig. Auch in abgeschotteten Umgebungen ohne erlaubte lokale Prozesse passt der Ansatz nicht. In diesen Fällen ist der Zusatzaufwand größer als der Nutzen.
Caddy ist der Open Source Webserver mit automatischem HTTPS und Reverse Proxy. NCA ordnet Caddy als sicheres Gateway für selbst gehostete Stacks wie n8n, Ollama und Coolify ein.
Open Source PaaS auf eigenen Servern. NCA ordnet Coolify als Alternative zu Vercel und Heroku ein und zeigt DSGVO Vorteile.
Rust native Codebase Intelligence findet Dead Code, Duplikate, Komplexität und Architektur Drift in Sekunden. Editorial eingeordnet vom NCA Team.
Open Source Android Apps statt Google. NCA ordnet die Fossify Suite als DSGVO konforme Alternative ein und zeigt Migration Stufen.
Humanizer Skills machen KI Texte natürlich. Die wichtigsten Open Source Projekte im Vergleich, mit deutschem Fokus auf humanizer-de.
Neovim ist der moderne Open Source Editor mit Lua, LSP und KI Plugins. Vim als Vorgänger im Überblick 2026.
nWave zerlegt Feature Entwicklung in sieben Wellen mit spezialisierten KI Agenten, erzwingt TDD Disziplin zur Laufzeit und hält bei jedem Schritt einen Menschen im Review.
OpenReception 1.0 ist veröffentlicht: quelloffene Terminverwaltung für Arztpraxen unter AGPL, end to end verschlüsselt, als DSGVO Alternative zu Doctolib.
PlantUML erzeugt Diagramme aus Text. NCA ordnet das quelloffene Tool als Self Hosting Alternative zu Cloud Diagramm SaaS ein und zeigt den KI Workflow.
VoiceMode bringt natürliche 2 Wege Sprachkonversationen in Claude Code, lokal mit Whisper und Kokoro oder per OpenAI Fallback, MIT lizenziert und offline nutzbar.