Grünes isometrisches Browser Bild mit VOICEMODE Schriftzug, Mikrofon und Rakete

Was ist VoiceMode?

VoiceMode ist ein Open Source MCP Server, der natürliche 2 Wege Sprachkonversationen mit Claude Code und anderen MCP fähigen Agents ermöglicht. Statt jeden Befehl zu tippen, sprichst du mit deinem Coding Agent und hörst die Antwort direkt im Terminal.

Das Projekt von Mike Bailey steht unter MIT Lizenz, ist zu über 95 Prozent in Python geschrieben und läuft auf Linux, macOS, Windows WSL und NixOS. Mit mehr als 1200 GitHub Stars zählt VoiceMode zu den meistgenutzten Sprachlösungen im Claude Code Umfeld und wird über das Claude Code Plugin Marketplace verteilt.

Der entscheidende Punkt für datenschutzbewusste Teams: VoiceMode läuft komplett lokal mit Whisper für Speech to Text und Kokoro für Text to Speech. Cloud Dienste wie OpenAI sind nur optionaler Fallback, keine Pflicht. So bleibt die gesamte Sprachverarbeitung auf dem eigenen Rechner und damit voll unter Kontrolle.

VoiceMode einordnen mit NCA: Lokale Sprach KI ohne Datenabfluss

Lokale Sprach KI ist kein Neuland für Never Code Alone. Wir betreiben unseren KI Stack auf eigenen Servern in Deutschland, setzen Ollama täglich produktiv ein und arbeiten über das Model Context Protocol jeden Tag mit Claude Code und OpenCode. Genau die Bausteine, auf denen VoiceMode aufsetzt, gehören bei uns zum Werkzeugkasten.

Wer VoiceMode oder eine vergleichbare Sprachlösung datenschutzkonform aufsetzen will, bekommt von uns eine ehrliche Einordnung im Vibe Coding Consulting: vom lokalen Whisper und Kokoro Setup über die Anbindung an Open WebUI und den eigenen Ollama Stack bis zur sauberen MCP Integration. Auch beim Einstieg ins Vibe Coding und bei verwandten Open Source Werkzeugen wie dem KI Agenten Framework nWave helfen wir Teams, die passende Architektur zu finden.

Lass uns sprechen

Finde das passende Angebot für dein Projekt

Anfrage-Konfiguration

Starten Sie Ihre Anfrage

Projektart

Infos

Nachricht

Eliminierung technischer Schulden mit PHPStan, Rector PHP und PHPUnit. Über 20 Jahre Praxiserfahrung in skalierbaren Backends.

CORE EXPERTISE

Gesetzliche Konformität & Inklusion. Optimierung von Performance und Conversion durch radikal nutzerzentriertes, universelles Design.

BFSG COMPLIANT

Skalierbare KI-Systeme mit echtem Code Ownership. CI/CD, Backup-Strategien und Infrastruktur, die mit deinem Team wächst.

ENTERPRISE READY

Anfrage-Konfiguration

Worauf liegt dein Fokus?

Wähle die Expertise, die dein Projekt jetzt am dringendsten benötigt.

calendar_today

Exklusiv & Unverbindlich

30 Minuten Kennenlernen
mit Hands-on Tipps

analytics

Prozess-Ablauf

1

Hands-on Consulting wählen

Wähle eine unserer drei Spezialgebiete für den Einstieg.

2

Infos auswählen

Spezifiziere deine Anforderungen und den technischen Rahmen.

3

Finalisierung

Letzte Details und direkter Kontakt für deinen Termin.

Wie VoiceMode funktioniert: MCP plus Sprachpipeline

VoiceMode läuft als MCP Server. Claude Code ruft über das Model Context Protocol das Sprach Tool auf, das die komplette Konversation abwickelt. Der Ablauf ist eine geschlossene Schleife aus vier Schritten:

Aufnahme: Das Mikrofon nimmt deine gesprochene Anweisung auf. Smart Silence Detection beendet die Aufnahme automatisch, sobald du aufhörst zu sprechen.
Speech to Text: Whisper transkribiert die Aufnahme in Text, lokal mit Whisper.cpp oder über eine OpenAI kompatible API.
Verarbeitung: Der transkribierte Text geht an Claude Code, der wie gewohnt Befehle ausführt oder antwortet.
Text to Speech: Kokoro wandelt die Antwort in Sprache und gibt sie über die Lautsprecher aus.

Die lokalen Dienste Whisper.cpp und Kokoro bieten dieselbe API wie OpenAI. VoiceMode wechselt dadurch nahtlos zwischen lokalem Betrieb und Cloud, ohne dass sich an der Bedienung etwas ändert. Die niedrige Latenz sorgt dafür, dass sich das Sprechen wie ein echtes Gespräch anfühlt und nicht wie ein Diktiergerät.

Lokal oder Cloud: VoiceMode datenschutzkonform betreiben

VoiceMode lässt sich in mehreren Stufen betreiben, abgestuft nach Datenkontrolle. Für europäische Teams mit DSGVO Anforderungen ist diese Wahl entscheidend, denn Sprachaufnahmen gehören zu den besonders sensiblen Daten. Wer rein lokal arbeitet, hält die komplette Verarbeitung auf dem eigenen Gerät. Wer den OpenAI Fallback nutzt, sendet Audio in die USA und braucht dafür einen Auftragsverarbeitungsvertrag.

Die folgende Übersicht zeigt die typischen Betriebsmodi und ihre Datenschutz Folgen im Vergleich:

Betriebsmodus	Komponenten	Datenschutz
Voll lokal	Whisper.cpp und Kokoro auf dem eigenen Rechner	Höchste Kontrolle, keine Sprachdaten verlassen das Gerät
Hybrid	Lokales Speech to Text, Cloud Text to Speech oder umgekehrt	Teildaten gehen an den Cloud Anbieter
Voll Cloud	OpenAI für Speech to Text und Text to Speech	Sprachdaten verlassen die EU, AVV und Transfer Bewertung nötig
Lokal im Team	Lokale Services auf eigenem Server, Verteilung über LiveKit	Daten bleiben im eigenen Netz, volle Souveränität

VoiceMode installieren: Plugin Marketplace und uvx

Der schnellste Weg für Claude Code Nutzer führt über den Claude Code Plugin Marketplace. Marketplace hinzufügen, Plugin installieren, Abhängigkeiten ziehen und losreden:

Code:

          claude plugin marketplace add mbailey/voicemode
claude plugin install voicemode@voicemode

# Abhängigkeiten und lokale Voice Services installieren
/voicemode:install

# Gespräch starten
/voicemode:converse

Alternativ läuft die Installation über den Python Paketmanager uv. Das Installer Skript richtet Abhängigkeiten und lokale Voice Services ein, danach wird VoiceMode als MCP Server registriert:

Code:

          # uv installieren, falls noch nicht vorhanden
curl -LsSf https://astral.sh/uv/install.sh | sh

# Installer ausführen
uvx voice-mode-install

# Bei Claude Code registrieren
claude mcp add --scope user voicemode -- uvx --refresh voice-mode

# Optional: OpenAI als Fallback
export OPENAI_API_KEY=dein-key

claude converse

Voraussetzung sind ein Mikrofon, Lautsprecher und je nach System ein paar Pakete wie ffmpeg und portaudio. Unter Windows WSL werden zusätzlich die pulseaudio Pakete für den Mikrofon Zugriff gebraucht. VoiceMode unterstützt Python 3.10 bis 3.14 und läuft auf Linux, macOS, Windows WSL und NixOS.

VoiceMode in der Praxis: Wann Sprache den Workflow verbessert

VoiceMode ersetzt nicht die Tastatur, sondern ergänzt sie für Momente, in denen Hände oder Augen anderweitig beschäftigt sind. Typische Situationen aus dem Entwickleralltag:

Unterwegs zum nächsten Meeting eine Aufgabe an den Agent übergeben
Beim Kochen einen Bug Fix mit Claude Code durchsprechen
Den Augen nach Stunden am Bildschirm eine Pause gönnen
Freihändig arbeiten, während die Hände etwas anderes halten

Besonders wertvoll ist Sprachsteuerung für Entwickler mit motorischen Einschränkungen. Wo Tippen schwerfällt, senkt Spracherkennung die Hürde zur eigenständigen Arbeit deutlich. Genau hier trifft VoiceMode auf ein Kernthema von NCA: barrierefreie Software nach BFSG und WCAG, bei der alternative Eingabemethoden kein Nachgedanke sind, sondern Teil der Architektur.

NCA Einordnung: Stärken und Grenzen von VoiceMode

VoiceMode ist nicht Teil unseres Production Stacks, aber wir ordnen es als Experten für lokale KI ein. Die Stärken liegen klar im offenen, lokal first Ansatz: MIT Lizenz, keine Abhängigkeit von einem einzelnen Cloud Anbieter und eine saubere MCP Integration machen das Projekt für datenschutzbewusste Teams interessant. Wer Sprache in Claude Code will, ohne eine schwergewichtige Voice Plattform zu betreiben, findet hier einen schlanken Einstieg.

Es gibt aber Grenzen, die man kennen sollte:

Ein bekanntes Problem von April 2026: Claude Code ab Version 2.1.105 beendet den VoiceMode MCP Server, wenn man ein Gespräch mit ESC abbricht. Workaround ist das Pinnen auf Version 2.1.104.
Die lokale Sprachqualität mit Kokoro ist gut, erreicht aber nicht immer das Niveau kommerzieller Cloud Stimmen.
Lokales Whisper braucht je nach Modellgröße spürbar Rechenleistung auf der eigenen Maschine.

Ob VoiceMode für deinen konkreten Use Case die richtige Wahl ist oder ob ein anderer Ansatz besser passt, klären wir im Vibe Coding Consulting. Wir helfen Teams, Sprachlösungen sauber gegen Datenschutz, Hardware und Workflow abzuwägen, statt blind dem nächsten Hype zu folgen.

Voice isn't about replacing typing - it's about being available when typing isn't.

VoiceMode, Open Source Projekt von mbailey – GitHub README

nWave: Open Source KI Agenten Framework 2026

nWave führt KI Agenten in sieben Wellen von der Idee zum fertigen Code, erzwingt TDD in Claude Code und hält den Menschen an jedem Gate im Review

Mehr erfahren

Was wir bei NCA aus VoiceMode mitnehmen

In NCA Beratungsprojekten sehen wir regelmäßig, dass die Voice Oberfläche nicht das Entscheidende ist. Den Unterschied macht, was darunter läuft: ein leistungsfähiger Agent und volle Kontrolle über die Daten. VoiceMode bestätigt diese Sicht, weil es Sprache als reine Schnittstelle behandelt und die Verarbeitung bewusst lokal halten kann.

Für Teams, die diesen Weg gehen wollen, bringen wir den ganzen Unterbau mit: einen lokalen Ollama Stack mit Modellen wie Qwen3 Coder Next, die Einbindung in OpenCode und Claude Code sowie saubere Vibe Coding Best Practices. Und wenn ein KI Projekt aus dem Ruder läuft, stabilisieren wir es, bis es wieder produktionsreif ist.

CYPRESS.IO Ambassador und IT Consultant für QA Engenieering und Qualität in PHP Projekten.

NCA Vibe Coding Consulting

Roland Golla ist Entwickler aus Leidenschaft – seit über 20 Jahren. Er hat hunderte Projekte begleitet, von Legacy-Refactoring bis KI-Integration. Bei Vibe Coding verbindet er das Beste aus beiden Welten: Die Geschwindigkeit von KI-generiertem Code mit der Qualität professioneller Softwareentwicklung. Kein Bullshit, keine Agentur-Floskeln – direkte Hilfe von jemandem, der selbst täglich im Code steckt.

E-Mail Kontakt

Häufige Fragen zu VoiceMode

Die wichtigsten Fragen zu VoiceMode, Installation, Datenschutz und Einsatz im Überblick.

Was ist VoiceMode 2026?

VoiceMode ist ein Open Source MCP Server für natürliche 2 Wege Sprachkonversationen mit Claude Code und anderen MCP fähigen Agents. Du sprichst deine Anweisung, der Agent antwortet hörbar. Das Projekt steht unter MIT Lizenz und lässt sich komplett lokal mit Whisper und Kokoro betreiben.

Ist VoiceMode 2026 kostenlos?

Ja. VoiceMode ist Open Source unter MIT Lizenz und damit kostenlos nutzbar. Die lokalen Voice Services Whisper und Kokoro sind ebenfalls kostenfrei. Kosten entstehen nur, wenn du optional den OpenAI Fallback für Speech to Text oder Text to Speech verwendest.

Läuft VoiceMode 2026 lokal und datenschutzkonform?

Ja. Mit Whisper für Speech to Text und Kokoro für Text to Speech bleibt die gesamte Sprachverarbeitung auf dem eigenen Rechner. Keine Audiodaten verlassen das Gerät. Cloud Dienste wie OpenAI sind optionaler Fallback, keine Pflicht. Das macht VoiceMode für DSGVO sensible Teams besonders interessant.

Welche Betriebssysteme unterstützt VoiceMode 2026?

VoiceMode läuft auf Linux, macOS, Windows über WSL und NixOS. Vorausgesetzt wird Python in einer Version zwischen 3.10 und 3.14 sowie ein Mikrofon und Lautsprecher. Je nach System sind zusätzliche Pakete wie ffmpeg und portaudio nötig.

Wie installiere ich VoiceMode 2026?

Am schnellsten über den Claude Code Plugin Marketplace mit claude plugin marketplace add mbailey slash voicemode und anschließendem Install. Alternativ über den Python Paketmanager uv mit uvx voice mode install und der Registrierung als MCP Server. Beide Wege richten die lokalen Voice Services automatisch ein.

Funktioniert VoiceMode nur mit Claude Code?

Nein. VoiceMode ist als MCP Server gebaut und arbeitet mit jedem MCP fähigen Agent zusammen. Der Fokus und die beste Integration liegen bei Claude Code, aber das Model Context Protocol macht den Server grundsätzlich auch für andere Agents nutzbar.

Welche Sprach Engines nutzt VoiceMode?

Für Speech to Text kommt Whisper zum Einsatz, für Text to Speech Kokoro. Beide laufen lokal und bieten dieselbe API wie OpenAI. Dadurch wechselt VoiceMode nahtlos zwischen lokalem Betrieb und Cloud, ohne dass sich an der Bedienung etwas ändert.

Brauche ich einen OpenAI Key?

Nein. VoiceMode funktioniert vollständig ohne OpenAI, wenn du die lokalen Services Whisper und Kokoro nutzt. Ein OpenAI Key ist nur dann sinnvoll, wenn du Cloud Dienste als Fallback einsetzen willst, etwa bei schwacher lokaler Hardware.

Was ist das bekannte ESC Problem?

Seit April 2026 gibt es ein bekanntes Problem: Claude Code ab Version 2.1.105 beendet den VoiceMode MCP Server, wenn man ein Gespräch mit der ESC Taste abbricht. Als Workaround empfiehlt das Projekt, Claude Code auf Version 2.1.104 zu pinnen, bis das Problem behoben ist.

Wie gut ist die lokale Sprachqualität?

Kokoro liefert für ein lokales Open Source Modell eine sehr ordentliche Sprachqualität. An das Niveau spezialisierter kommerzieller Cloud Stimmen reicht es nicht immer heran. Für den Entwickleralltag, in dem Klarheit wichtiger ist als perfekte Klangästhetik, ist die Qualität in der Praxis völlig ausreichend.

Eignet sich VoiceMode für Barrierefreiheit?

Ja. Sprachsteuerung senkt für Menschen mit motorischen Einschränkungen die Hürde, eigenständig mit einem Coding Agent zu arbeiten. Damit passt VoiceMode gut zu einem Kernthema von NCA: barrierefreie Software nach BFSG und WCAG, bei der alternative Eingabemethoden fest eingeplant sind.

Hilft NCA bei der Einrichtung von VoiceMode?

NCA ordnet VoiceMode und vergleichbare Sprachlösungen im Vibe Coding Consulting ein. Wir richten lokale KI Stacks mit Ollama, Whisper und Kokoro ein, klären Datenschutz und Hardware Anforderungen und prüfen, ob die Lösung zum jeweiligen Workflow passt. So wird aus einem Experiment ein verlässlicher Baustein.

Caddy: Open Source Webserver mit Auto HTTPS und Reverse Proxy 2026

Caddy ist der Open Source Webserver mit automatischem HTTPS und Reverse Proxy. NCA ordnet Caddy als sicheres Gateway für selbst gehostete Stacks wie n8n, Ollama und Coolify ein.

Coolify: Self hosted PaaS Alternative zu Vercel und Heroku 2026

Open Source PaaS auf eigenen Servern. NCA ordnet Coolify als Alternative zu Vercel und Heroku ein und zeigt DSGVO Vorteile.

Fallow: Codebase Intelligence für TypeScript und JavaScript 2026

Rust native Codebase Intelligence findet Dead Code, Duplikate, Komplexität und Architektur Drift in Sekunden. Editorial eingeordnet vom NCA Team.

Fossify: Open Source Android Apps als datenschutzfreundliche Google Alternative 2026

Open Source Android Apps statt Google. NCA ordnet die Fossify Suite als DSGVO konforme Alternative ein und zeigt Migration Stufen.

Headroom: Context Compression für KI Agenten 2026

Headroom komprimiert alles was dein KI Agent liest lokal vor dem Sprachmodell. 60 bis 95 Prozent weniger Tokens, reversibel, Apache 2.0. Editorial eingeordnet vom NCA Team.

Humanizer SKILL.md: Open Source KI Texte natürlich umschreiben 2026

Humanizer Skills machen KI Texte natürlich. Die wichtigsten Open Source Projekte im Vergleich, mit deutschem Fokus auf humanizer-de.

Neovim 2026: Der moderne Open Source Editor mit Lua, LSP und KI Plugins

Neovim ist der moderne Open Source Editor mit Lua, LSP und KI Plugins. Vim als Vorgänger im Überblick 2026.

nWave: Open Source KI Agenten Framework für Claude Code 2026

nWave zerlegt Feature Entwicklung in sieben Wellen mit spezialisierten KI Agenten, erzwingt TDD Disziplin zur Laufzeit und hält bei jedem Schritt einen Menschen im Review.

openDesk: Souveräne Open Source Alternative zu Microsoft 365 2026

Die Open Source Alternative zu Microsoft 365 vom ZenDiS. Version 1.17, neun Komponenten, Enterprise und Community Edition im Überblick.

OpenReception 1.0: Open Source Terminverwaltung als DSGVO Alternative zu Doctolib

OpenReception 1.0 ist veröffentlicht: quelloffene Terminverwaltung für Arztpraxen unter AGPL, end to end verschlüsselt, als DSGVO Alternative zu Doctolib.

PlantUML: Open Source UML Diagramme aus Text 2026

PlantUML erzeugt Diagramme aus Text. NCA ordnet das quelloffene Tool als Self Hosting Alternative zu Cloud Diagramm SaaS ein und zeigt den KI Workflow.

Project NOMAD: Offline Knowledge Server mit lokaler KI 2026

Was Project NOMAD kann, wie der Offline Knowledge Server mit Ollama, Kiwix und Kolibri funktioniert und für wen er sich lohnt. Die NCA Einordnung.

Zed 1.0 2026: Open Source Editor in Rust mit Parallel Agents

Zed erreicht 1.0. Rust, GPU Rendering, Parallel Agents und ACP für Claude Agent, Codex und OpenCode. NCA ordnet den Open Source Editor ein.