nWave: Open Source KI Agenten Framework 2026
nWave führt KI Agenten in sieben Wellen von der Idee zum fertigen Code, erzwingt TDD in Claude Code und hält den Menschen an jedem Gate im Review
Mehr erfahren
VoiceMode ist ein Open Source MCP Server, der natürliche 2 Wege Sprachkonversationen mit Claude Code und anderen MCP fähigen Agents ermöglicht. Statt jeden Befehl zu tippen, sprichst du mit deinem Coding Agent und hörst die Antwort direkt im Terminal.
Das Projekt von Mike Bailey steht unter MIT Lizenz, ist zu über 95 Prozent in Python geschrieben und läuft auf Linux, macOS, Windows WSL und NixOS. Mit mehr als 1200 GitHub Stars zählt VoiceMode zu den meistgenutzten Sprachlösungen im Claude Code Umfeld und wird über das Claude Code Plugin Marketplace verteilt.
Der entscheidende Punkt für datenschutzbewusste Teams: VoiceMode läuft komplett lokal mit Whisper für Speech to Text und Kokoro für Text to Speech. Cloud Dienste wie OpenAI sind nur optionaler Fallback, keine Pflicht. So bleibt die gesamte Sprachverarbeitung auf dem eigenen Rechner und damit voll unter Kontrolle.
Lokale Sprach KI ist kein Neuland für Never Code Alone. Wir betreiben unseren KI Stack auf eigenen Servern in Deutschland, setzen Ollama täglich produktiv ein und arbeiten über das Model Context Protocol jeden Tag mit Claude Code und OpenCode. Genau die Bausteine, auf denen VoiceMode aufsetzt, gehören bei uns zum Werkzeugkasten.
Wer VoiceMode oder eine vergleichbare Sprachlösung datenschutzkonform aufsetzen will, bekommt von uns eine ehrliche Einordnung im Vibe Coding Consulting: vom lokalen Whisper und Kokoro Setup über die Anbindung an Open WebUI und den eigenen Ollama Stack bis zur sauberen MCP Integration. Auch beim Einstieg ins Vibe Coding und bei verwandten Open Source Werkzeugen wie dem KI Agenten Framework nWave helfen wir Teams, die passende Architektur zu finden.
Finde das passende Angebot für dein Projekt
Hey! Ich bin CodeBot. Lass uns herausfinden, wie wir dein Projekt zum Fliegen bringen.
Was soll entstehen?
VoiceMode läuft als MCP Server. Claude Code ruft über das Model Context Protocol das Sprach Tool auf, das die komplette Konversation abwickelt. Der Ablauf ist eine geschlossene Schleife aus vier Schritten:
Die lokalen Dienste Whisper.cpp und Kokoro bieten dieselbe API wie OpenAI. VoiceMode wechselt dadurch nahtlos zwischen lokalem Betrieb und Cloud, ohne dass sich an der Bedienung etwas ändert. Die niedrige Latenz sorgt dafür, dass sich das Sprechen wie ein echtes Gespräch anfühlt und nicht wie ein Diktiergerät.
VoiceMode lässt sich in mehreren Stufen betreiben, abgestuft nach Datenkontrolle. Für europäische Teams mit DSGVO Anforderungen ist diese Wahl entscheidend, denn Sprachaufnahmen gehören zu den besonders sensiblen Daten. Wer rein lokal arbeitet, hält die komplette Verarbeitung auf dem eigenen Gerät. Wer den OpenAI Fallback nutzt, sendet Audio in die USA und braucht dafür einen Auftragsverarbeitungsvertrag.
Die folgende Übersicht zeigt die typischen Betriebsmodi und ihre Datenschutz Folgen im Vergleich:
| Betriebsmodus | Komponenten | Datenschutz |
|---|---|---|
| Voll lokal | Whisper.cpp und Kokoro auf dem eigenen Rechner | Höchste Kontrolle, keine Sprachdaten verlassen das Gerät |
| Hybrid | Lokales Speech to Text, Cloud Text to Speech oder umgekehrt | Teildaten gehen an den Cloud Anbieter |
| Voll Cloud | OpenAI für Speech to Text und Text to Speech | Sprachdaten verlassen die EU, AVV und Transfer Bewertung nötig |
| Lokal im Team | Lokale Services auf eigenem Server, Verteilung über LiveKit | Daten bleiben im eigenen Netz, volle Souveränität |
Der schnellste Weg für Claude Code Nutzer führt über den Claude Code Plugin Marketplace. Marketplace hinzufügen, Plugin installieren, Abhängigkeiten ziehen und losreden:
claude plugin marketplace add mbailey/voicemode
claude plugin install voicemode@voicemode
# Abhängigkeiten und lokale Voice Services installieren
/voicemode:install
# Gespräch starten
/voicemode:converse
Alternativ läuft die Installation über den Python Paketmanager uv. Das Installer Skript richtet Abhängigkeiten und lokale Voice Services ein, danach wird VoiceMode als MCP Server registriert:
# uv installieren, falls noch nicht vorhanden
curl -LsSf https://astral.sh/uv/install.sh | sh
# Installer ausführen
uvx voice-mode-install
# Bei Claude Code registrieren
claude mcp add --scope user voicemode -- uvx --refresh voice-mode
# Optional: OpenAI als Fallback
export OPENAI_API_KEY=dein-key
claude converse
Voraussetzung sind ein Mikrofon, Lautsprecher und je nach System ein paar Pakete wie ffmpeg und portaudio. Unter Windows WSL werden zusätzlich die pulseaudio Pakete für den Mikrofon Zugriff gebraucht. VoiceMode unterstützt Python 3.10 bis 3.14 und läuft auf Linux, macOS, Windows WSL und NixOS.
VoiceMode ersetzt nicht die Tastatur, sondern ergänzt sie für Momente, in denen Hände oder Augen anderweitig beschäftigt sind. Typische Situationen aus dem Entwickleralltag:
Besonders wertvoll ist Sprachsteuerung für Entwickler mit motorischen Einschränkungen. Wo Tippen schwerfällt, senkt Spracherkennung die Hürde zur eigenständigen Arbeit deutlich. Genau hier trifft VoiceMode auf ein Kernthema von NCA: barrierefreie Software nach BFSG und WCAG, bei der alternative Eingabemethoden kein Nachgedanke sind, sondern Teil der Architektur.
VoiceMode ist nicht Teil unseres Production Stacks, aber wir ordnen es als Experten für lokale KI ein. Die Stärken liegen klar im offenen, lokal first Ansatz: MIT Lizenz, keine Abhängigkeit von einem einzelnen Cloud Anbieter und eine saubere MCP Integration machen das Projekt für datenschutzbewusste Teams interessant. Wer Sprache in Claude Code will, ohne eine schwergewichtige Voice Plattform zu betreiben, findet hier einen schlanken Einstieg.
Es gibt aber Grenzen, die man kennen sollte:
Ob VoiceMode für deinen konkreten Use Case die richtige Wahl ist oder ob ein anderer Ansatz besser passt, klären wir im Vibe Coding Consulting. Wir helfen Teams, Sprachlösungen sauber gegen Datenschutz, Hardware und Workflow abzuwägen, statt blind dem nächsten Hype zu folgen.
Voice isn't about replacing typing - it's about being available when typing isn't.
In NCA Beratungsprojekten sehen wir regelmäßig, dass die Voice Oberfläche nicht das Entscheidende ist. Den Unterschied macht, was darunter läuft: ein leistungsfähiger Agent und volle Kontrolle über die Daten. VoiceMode bestätigt diese Sicht, weil es Sprache als reine Schnittstelle behandelt und die Verarbeitung bewusst lokal halten kann.
Für Teams, die diesen Weg gehen wollen, bringen wir den ganzen Unterbau mit: einen lokalen Ollama Stack mit Modellen wie Qwen3 Coder Next, die Einbindung in OpenCode und Claude Code sowie saubere Vibe Coding Best Practices. Und wenn ein KI Projekt aus dem Ruder läuft, stabilisieren wir es, bis es wieder produktionsreif ist.
Roland Golla ist Entwickler aus Leidenschaft – seit über 20 Jahren. Er hat hunderte Projekte begleitet, von Legacy-Refactoring bis KI-Integration. Bei Vibe Coding verbindet er das Beste aus beiden Welten: Die Geschwindigkeit von KI-generiertem Code mit der Qualität professioneller Softwareentwicklung. Kein Bullshit, keine Agentur-Floskeln – direkte Hilfe von jemandem, der selbst täglich im Code steckt.
Die wichtigsten Fragen zu VoiceMode, Installation, Datenschutz und Einsatz im Überblick.
VoiceMode ist ein Open Source MCP Server für natürliche 2 Wege Sprachkonversationen mit Claude Code und anderen MCP fähigen Agents. Du sprichst deine Anweisung, der Agent antwortet hörbar. Das Projekt steht unter MIT Lizenz und lässt sich komplett lokal mit Whisper und Kokoro betreiben.
Ja. VoiceMode ist Open Source unter MIT Lizenz und damit kostenlos nutzbar. Die lokalen Voice Services Whisper und Kokoro sind ebenfalls kostenfrei. Kosten entstehen nur, wenn du optional den OpenAI Fallback für Speech to Text oder Text to Speech verwendest.
Ja. Mit Whisper für Speech to Text und Kokoro für Text to Speech bleibt die gesamte Sprachverarbeitung auf dem eigenen Rechner. Keine Audiodaten verlassen das Gerät. Cloud Dienste wie OpenAI sind optionaler Fallback, keine Pflicht. Das macht VoiceMode für DSGVO sensible Teams besonders interessant.
VoiceMode läuft auf Linux, macOS, Windows über WSL und NixOS. Vorausgesetzt wird Python in einer Version zwischen 3.10 und 3.14 sowie ein Mikrofon und Lautsprecher. Je nach System sind zusätzliche Pakete wie ffmpeg und portaudio nötig.
Am schnellsten über den Claude Code Plugin Marketplace mit claude plugin marketplace add mbailey slash voicemode und anschließendem Install. Alternativ über den Python Paketmanager uv mit uvx voice mode install und der Registrierung als MCP Server. Beide Wege richten die lokalen Voice Services automatisch ein.
Nein. VoiceMode ist als MCP Server gebaut und arbeitet mit jedem MCP fähigen Agent zusammen. Der Fokus und die beste Integration liegen bei Claude Code, aber das Model Context Protocol macht den Server grundsätzlich auch für andere Agents nutzbar.
Für Speech to Text kommt Whisper zum Einsatz, für Text to Speech Kokoro. Beide laufen lokal und bieten dieselbe API wie OpenAI. Dadurch wechselt VoiceMode nahtlos zwischen lokalem Betrieb und Cloud, ohne dass sich an der Bedienung etwas ändert.
Nein. VoiceMode funktioniert vollständig ohne OpenAI, wenn du die lokalen Services Whisper und Kokoro nutzt. Ein OpenAI Key ist nur dann sinnvoll, wenn du Cloud Dienste als Fallback einsetzen willst, etwa bei schwacher lokaler Hardware.
Seit April 2026 gibt es ein bekanntes Problem: Claude Code ab Version 2.1.105 beendet den VoiceMode MCP Server, wenn man ein Gespräch mit der ESC Taste abbricht. Als Workaround empfiehlt das Projekt, Claude Code auf Version 2.1.104 zu pinnen, bis das Problem behoben ist.
Kokoro liefert für ein lokales Open Source Modell eine sehr ordentliche Sprachqualität. An das Niveau spezialisierter kommerzieller Cloud Stimmen reicht es nicht immer heran. Für den Entwickleralltag, in dem Klarheit wichtiger ist als perfekte Klangästhetik, ist die Qualität in der Praxis völlig ausreichend.
Ja. Sprachsteuerung senkt für Menschen mit motorischen Einschränkungen die Hürde, eigenständig mit einem Coding Agent zu arbeiten. Damit passt VoiceMode gut zu einem Kernthema von NCA: barrierefreie Software nach BFSG und WCAG, bei der alternative Eingabemethoden fest eingeplant sind.
NCA ordnet VoiceMode und vergleichbare Sprachlösungen im Vibe Coding Consulting ein. Wir richten lokale KI Stacks mit Ollama, Whisper und Kokoro ein, klären Datenschutz und Hardware Anforderungen und prüfen, ob die Lösung zum jeweiligen Workflow passt. So wird aus einem Experiment ein verlässlicher Baustein.
Caddy ist der Open Source Webserver mit automatischem HTTPS und Reverse Proxy. NCA ordnet Caddy als sicheres Gateway für selbst gehostete Stacks wie n8n, Ollama und Coolify ein.
Open Source PaaS auf eigenen Servern. NCA ordnet Coolify als Alternative zu Vercel und Heroku ein und zeigt DSGVO Vorteile.
Rust native Codebase Intelligence findet Dead Code, Duplikate, Komplexität und Architektur Drift in Sekunden. Editorial eingeordnet vom NCA Team.
Open Source Android Apps statt Google. NCA ordnet die Fossify Suite als DSGVO konforme Alternative ein und zeigt Migration Stufen.
Neovim ist der moderne Open Source Editor mit Lua, LSP und KI Plugins. Vim als Vorgänger im Überblick 2026.
nWave zerlegt Feature Entwicklung in sieben Wellen mit spezialisierten KI Agenten, erzwingt TDD Disziplin zur Laufzeit und hält bei jedem Schritt einen Menschen im Review.
OpenReception 1.0 ist veröffentlicht: quelloffene Terminverwaltung für Arztpraxen unter AGPL, end to end verschlüsselt, als DSGVO Alternative zu Doctolib.
PlantUML erzeugt Diagramme aus Text. NCA ordnet das quelloffene Tool als Self Hosting Alternative zu Cloud Diagramm SaaS ein und zeigt den KI Workflow.