Qwen3-Coder – Lokales Vibe Coding ohne API-Kosten
Qwen3-Coder: Open-Weight Coding Agent, 70,6% SWE-bench, 256K Kontext, läuft lokal via Ollama. Integration mit OpenCode und Claude Code – ohne API-Kosten.
Mehr erfahren
Qwen3.6 35B A3B ist die erste Open Weight Variante der Qwen3.6 Generation von Alibaba und seit dem 16. April 2026 unter Apache 2.0 Lizenz verfügbar. Das Modell ist eine Mixture of Experts Architektur mit 35 Milliarden Parametern insgesamt und nur 3 Milliarden aktiv pro Token, kombiniert mit nativer 256K Kontextlänge und multimodalen Fähigkeiten (Text und Vision).
Das Modell ist der direkte Nachfolger von Qwen3 Coder und liefert deutlich verbesserte Benchmarks im agentischen Coding: SWE Bench Verified springt auf 73,4 Prozent, Terminal Bench 2.0 auf 51,5 Prozent und QwenWebBench steigt von 978 auf 1.397 Punkte (plus 43 Prozent). Besonders relevant ist die neue Funktion Thinking Preservation, die Reasoning Kontext aus historischen Nachrichten erhält und iterative Agent Loops deutlich stabiler macht.
Die entscheidende Frage für deutsche Unternehmen 2026: Wie viel Budget frisst Ihre Cloud API aktuell auf, und wie sicher sind Ihre sensiblen Codebases bei US Anbietern wirklich? Mit Qwen3.6 35B A3B laufen agentische Coding Workflows DSGVO konform auf eigener Hardware, ohne Rate Limits, ohne Drittanbieter, ohne monatliche Überraschungen. NCA begleitet Teams beim Aufbau produktiver On Premise Setups als Ihr Vibe Coding Consulting Partner. Kostenlose Erstberatung unter roland@nevercodealone.de oder +49 176 24747727.
Roland Golla ist Entwickler aus Leidenschaft – seit über 20 Jahren. Er hat hunderte Projekte begleitet, von Legacy-Refactoring bis KI-Integration. Bei Vibe Coding verbindet er das Beste aus beiden Welten: Die Geschwindigkeit von KI-generiertem Code mit der Qualität professioneller Softwareentwicklung. Kein Bullshit, keine Agentur-Floskeln – direkte Hilfe von jemandem, der selbst täglich im Code steckt.
Qwen3.6 35B A3B nutzt eine Mixture of Experts Architektur: Von den 35 Milliarden Parametern werden pro Token nur 3 Milliarden aktiviert. Das Ergebnis ist die Performance eines großen Modells bei den Inferenzkosten eines kleinen. Unternehmen können das Modell dadurch auf Consumer GPUs oder moderaten Server Konfigurationen produktiv betreiben, ohne auf die Qualität eines Flagship Modells zu verzichten.
Die native Kontextlänge beträgt 262.144 Tokens (256K) und lässt sich mit YaRN Rope Scaling auf bis zu 1.010.000 Tokens erweitern. Damit ist das Modell in der Lage, ganze Monorepos als Kontext zu verarbeiten, ohne dass Retrieval oder Chunking notwendig wird. Auf Ollama stehen acht verschiedene Quantisierungen zur Verfügung, von 22 GB (NVFP4) über 24 GB (Q4_K_M, Standard) bis 71 GB (BF16).
Verfügbare Varianten auf Ollama:
Die Alibaba Qwen Benchmarks zeigen deutliche Fortschritte gegenüber dem Vorgänger und auch gegenüber dem direkten Open Weight Konkurrenten Gemma 4 von Google. Besonders relevant: SWE Bench Verified misst, wie gut ein Modell echte GitHub Issues in einem Agent Scaffold löst, und ist damit der aussagekräftigste Benchmark für agentisches Coding.
Benchmark Vergleich Qwen3.6 35B A3B vs. Qwen3.5 35B A3B vs. Gemma 4 31B:
Die Zahlen stammen aus der offiziellen Hugging Face Model Card und wurden unabhängig von The Decoder bestätigt. Entscheidend ist nicht die Gesamtzahl der Parameter, sondern die Effizienz der MoE Architektur: 3B aktive Parameter schlagen Gemma 4 mit 31B aktiven Parametern in fast allen Coding Disziplinen. Das bedeutet für Ihr Team drastisch niedrigere Hardware Anforderungen bei gleicher Qualität. NCA analysiert für Sie, welches Open Weight Modell zu Ihrem Tech Stack passt, und liefert den Business Case inklusive ROI Rechnung. Direkt anfragen unter roland@nevercodealone.de.
Die zwei wichtigsten Neuerungen von Qwen3.6 sind Agentic Coding und Thinking Preservation. Beide Features adressieren das Kernproblem, das Entwickler bei früheren Modellen regelmäßig erleben: KI Modelle können einzelne Codezeilen gut generieren, scheitern aber bei längeren Agent Loops, mehrstufigen Aufgaben und iterativer Entwicklung.
Agentic Coding bedeutet, dass das Modell aktiv in einer Entwicklungsschleife arbeitet: Es liest Dateien, löst Konflikte, trifft Entscheidungen über Prioritäten und liefert strukturierte Ergebnisse, die ein nachgelagertes System direkt ausführen kann. Qwen3.6 wurde genau für diese Rolle trainiert und integriert sich nahtlos mit Agent Frameworks wie OpenClaw, Claude Code, Codex und OpenCode.
Thinking Preservation ist der technische Begriff für einen neuen API Parameter, der Reasoning Kontext aus historischen Nachrichten zwischen Turns erhält. In klassischen Multi Turn Agent Loops wird Reasoning Information bei jedem Turn verworfen, was zu redundanten Überlegungen und erhöhten Token Kosten führt. Mit Thinking Preservation behält das Modell wichtige Zwischenschritte und kann auf frühere Entscheidungen aufbauen, ohne sie erneut herleiten zu müssen.
Die schnellste Möglichkeit, Qwen3.6 35B A3B lokal zu starten, ist Ollama. Nach der Installation reicht ein einziger Befehl, um das Modell herunterzuladen und sofort interaktiv zu nutzen:
# Ollama installieren (macOS oder Linux)
curl -fsSL https://ollama.com/install.sh | sh
# Qwen3.6 herunterladen und starten
ollama run qwen3.6
# Oder spezifische Quantisierung
ollama run qwen3.6:35b-a3b-q8_0
Für produktive Deployments empfiehlt sich vLLM mit OpenAI kompatibler API. Das erlaubt den direkten Betrieb als Drop in Replacement für OpenAI oder Claude Endpoints und skaliert deutlich besser unter Last.
# vLLM installieren
pip install vllm>=0.19.0
# Qwen3.6 als OpenAI kompatible API servieren
vllm serve Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tensor-parallel-size 1 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder
Für DSGVO konforme Produktions Setups in Deutschland und der EU empfiehlt NCA den Betrieb auf eigener Hardware oder bei einem europäischen Hoster wie Hetzner oder OVH. Die typischen Stolperfallen: falsch dimensionierte GPU, fehlerhafte YaRN Konfiguration für lange Kontexte, instabile Tool Calls bei produktiven Agent Loops. Wir übernehmen die Hardware Dimensionierung, die Installation, die Integration in bestehende CI/CD Pipelines und das Monitoring. Sparen Sie zwei bis drei Monate Trial and Error. Kostenlose Erstberatung als Vibe Coding Consulting Partner: roland@nevercodealone.de oder +49 176 24747727.
Qwen3.6 positioniert sich nicht als eigenständiges Tool, sondern als Reasoning Layer innerhalb eines wachsenden Ökosystems von Agent Frameworks. Ollama stellt dazu einen `launch` Command bereit, der das Modell direkt in die bekannten Coding Agents einbettet: Claude Code, Codex, OpenCode und OpenClaw. Das Modell liefert dabei die Intelligenz, während die Agent Frameworks die Ausführung, Tool Calls und User Interaktion übernehmen.
# Qwen3.6 als Backend für Claude Code
ollama launch claude --model qwen3.6
# Qwen3.6 als Backend für Codex
ollama launch codex --model qwen3.6
# Qwen3.6 als Backend für OpenCode
ollama launch opencode --model qwen3.6
# Qwen3.6 als Backend für OpenClaw
ollama launch openclaw --model qwen3.6
Diese Integration ist aus mehreren Gründen spannend: Sie kombiniert das ausgereifte User Interface etablierter Coding Agents mit einem Open Weight Modell, das komplett auf eigener Infrastruktur läuft. Damit entfallen API Kosten, Vendor Lock in und DSGVO Bedenken. Gleichzeitig bleibt die Entwickler Erfahrung identisch, weil das Modell transparent ausgetauscht wird.
Für Teams mit bestehenden Claude Code oder OpenCode Workflows ist der Umstieg auf Qwen3.6 als Backup oder primäres Modell ein kleiner Konfigurationsschritt, der monatlich vierstellige API Kosten einspart und gleichzeitig Firmen sensible Codebases schützt. NCA begleitet diesen Wechsel als fester Implementierungspartner: von der Hardware Beschaffung über die Umstellung der Entwickler Tools bis zum Monitoring im produktiven Betrieb. Fordern Sie ein konkretes Angebot für Ihr Team an: roland@nevercodealone.de.
Qwen3.6 prioritizes stability and real-world utility, offering developers a more intuitive, responsive, and genuinely productive coding experience.
Qwen3-Coder: Open-Weight Coding Agent, 70,6% SWE-bench, 256K Kontext, läuft lokal via Ollama. Integration mit OpenCode und Claude Code – ohne API-Kosten.
Mehr erfahren
Crush von Charmbracelet: Open-Source KI-Coding-Agent fürs Terminal. Multi-Model, LSP-Support, MCP-Integration. Installation, Konfiguration und Praxistipps.
Mehr erfahrenFinde das passende Angebot für dein Projekt
Hey! Ich bin CodeBot. Lass uns herausfinden, wie wir dein Projekt zum Fliegen bringen.
Was soll entstehen?
Die wichtigsten Fragen zu Qwen3.6 35B A3B, der Open Weight Architektur, den Benchmarks 2026 und dem produktiven Einsatz in Unternehmen, kurz und direkt beantwortet.
Qwen3.6 35B A3B ist die erste Open Weight Variante der Qwen3.6 Generation (Release April 2026). Das MoE Modell aktiviert nur 3 Milliarden der 35 Milliarden Parameter pro Token und erreicht damit 73,4 Prozent auf SWE Bench Verified. Entscheidend sind die neuen Features Agentic Coding und Thinking Preservation für stabile iterative Entwicklungs Workflows.
Qwen3.6 springt auf nahezu allen Benchmarks deutlich nach oben. QwenWebBench legt von 978 auf 1.397 Punkte zu (plus 43 Prozent), NL2Repo von 20,5 auf 29,4 Punkte, MCPMark von 27,0 auf 37,0 Punkte. Die Architektur wurde bei gleicher Größe verfeinert und um Thinking Preservation erweitert, der größte Nutzen für Entwickler ist die Stabilität in langen Agent Loops.
Die Standard Variante (Q4_K_M, 24 GB) läuft auf einer modernen Consumer GPU mit mindestens 24 GB VRAM, etwa RTX 4090 oder RTX 3090 Ti. Für produktive Deployments empfehlen wir Server mit NVIDIA A100, H100 oder äquivalent. Auf Apple Silicon funktioniert die MLX Variante (70 GB, BF16) mit mindestens 96 GB Unified Memory.
Ja. Qwen3.6 35B A3B ist unter Apache 2.0 Lizenz veröffentlicht und damit ohne Einschränkungen für kommerzielle Nutzung freigegeben. Unternehmen können das Modell lokal oder auf eigener Infrastruktur betreiben, ohne Lizenzgebühren, ohne Nutzungsbeschränkungen und ohne Weitergabe von Daten an Dritte.
Ollama stellt den Befehl `ollama launch` bereit, der Qwen3.6 direkt in bekannte Coding Agents einbettet. Ein einziger Befehl reicht, um Qwen3.6 als Backend zu aktivieren, etwa `ollama launch claude --model qwen3.6` oder `ollama launch openclaw --model qwen3.6`. Die Entwickler Erfahrung bleibt identisch, das Modell wird transparent ausgetauscht.
Thinking Preservation ist ein neuer API Parameter, der Reasoning Kontext aus historischen Nachrichten zwischen Turns erhält. In klassischen Multi Turn Agent Loops wird Reasoning Information bei jedem Turn verworfen. Mit Thinking Preservation behält das Modell Zwischenschritte und baut auf früheren Entscheidungen auf, das reduziert Token Kosten und stabilisiert lange Agent Sessions.
Qwen3.6 35B A3B schlägt Gemma 4 31B in praktisch allen Coding relevanten Benchmarks. Auf SWE Bench Verified liegt Qwen3.6 bei 73,4 Prozent, Gemma 4 bei 52,0 Prozent. Auf Terminal Bench 2.0 liegt Qwen3.6 bei 51,5 Prozent, Gemma 4 bei 42,9 Prozent. Beachtenswert: Qwen3.6 erreicht das mit nur 3B aktiven Parametern, Gemma 4 nutzt 31B Dense.
Ja. Die Standard Variante von Qwen3.6 35B A3B ist multimodal und verarbeitet Text und Bilder. Nur die NVFP4 und MXFP8 Varianten sind reine Text Modelle ohne Vision Support. Alle BF16, Q4_K_M und Q8_0 Varianten unterstützen multimodale Inputs und können für Dokumentenanalyse, Screenshot Verarbeitung und visuelle Code Review eingesetzt werden.
Qwen3.6 unterstützt nativ 262.144 Tokens, also 256K Kontext. Mit YaRN Rope Scaling lässt sich der Kontext auf bis zu 1.010.000 Tokens erweitern. YaRN wird von transformers, vllm, ktransformers und sglang unterstützt. Für ganze Monorepos reicht der native Kontext in aller Regel aus, ohne Retrieval oder Chunking.
Die Lizenz ist kostenlos (Apache 2.0). Die Betriebskosten hängen von der Hardware ab: Auf einer RTX 4090 entstehen ausschließlich Stromkosten, typischerweise 20 bis 40 Euro pro Monat bei 8 Stunden täglicher Nutzung. Bei Hetzner oder OVH GPU Servern mit A100 liegen die Kosten bei etwa 1,50 bis 3 Euro pro Stunde. Keine API Kosten, keine Rate Limits, keine Drittanbieter.
Auf Apple Silicon läuft Qwen3.6 am besten über Ollama oder die MLX Variante. Mit Ollama reicht `curl -fsSL https://ollama.com/install.sh | sh` gefolgt von `ollama run qwen3.6`. Für die MLX Variante (optimiert für Apple Silicon) sind mindestens 96 GB Unified Memory empfohlen, damit das BF16 Modell flüssig läuft.
NCA begleitet Unternehmen beim Aufbau DSGVO konformer On Premise KI Infrastruktur mit Qwen3.6 und ähnlichen Open Weight Modellen. Unsere Leistungen umfassen Hardware Dimensionierung, Installation mit Ollama oder vLLM, Integration in Claude Code und OpenClaw Workflows sowie Vibe Coding Consulting für Entwickler Teams. Erstberatung kostenlos unter roland@nevercodealone.de.
Bind AI aus den USA vs. lokale Entwicklung: Warum europäische Entwickler auf lokale KI-Tools setzen sollten. Digitale Souveränität, DSGVO und Vendor Lock-in.
Claude Code im Entwickler-Check: Terminal-Agent mit Git-Integration, MCP-Support und Subagenten. Installation, Kosten, CLAUDE.md und Praxis-Tipps 2026.
Claude Code Security scannt Codebasen auf Sicherheitslücken und schlägt Patches vor. Funktionen, Risiken & Best Practices für Enterprise-Teams 2026.
Context7 MCP Server von Upstash: Aktuelle Library-Dokumentation direkt im LLM-Kontext. Setup für Claude Code, Cursor und Windsurf. Pricing, Praxis-Tipps und Alternativen.
Crush von Charmbracelet: Open-Source KI-Coding-Agent fürs Terminal. Multi-Model, LSP-Support, MCP-Integration. Installation, Konfiguration und Praxistipps.
Cursor BugBot ist der KI-Debugging-Agent für Vibe Coding. Über 2 Mio. PRs/Monat, 70 % Resolution Rate. Wie er funktioniert und wann er hilft.
DeepSeek Coder, V3, R1 und V4: Chinas Open-Source KI-Modelle für Coding im Überblick. Benchmarks, DSGVO-Risiken, Self-Hosting und Praxis-Einordnung 2026.
Gas Town koordiniert 20 bis 30 parallele Claude Code Agents mit persistentem Work-State via Git-Hooks. Was es ist, wofür man es einsetzt und wer davon profitiert.
Gemma 3 von Google lokal ausf\u00fchren mit Ollama und Cursor \u2013 DSGVO-konform, 5 Modellgr\u00f6\u00dfen, 128K Kontext. NCA zeigt den Einstieg f\u00fcr Entwickler.
Gemma 4 von Google lokal betreiben: Apache 2.0, 4 Modellgr\u00f6\u00dfen, multimodal. E2B bis 31B Dense f\u00fcr Smartphones bis Workstations. NCA erkl\u00e4rt den Einstieg.
GLM-5 Turbo von Z.ai: Agent-Modell fuer OpenClaw mit 200K Kontext, praezisem Tool-Calling und stabiler Ausfuehrung. Alle Infos 2026.
GLM-5 von Zhipu AI im Business-Check: 744B Parameter, MIT-Lizenz, 5-8× günstiger als Claude. Kosten, Benchmarks und Einsatzszenarien für Unternehmen 2026.
GSD ist ein Open Source Framework f\u00fcr Claude Code, das Context Rot durch Sub Agents und Spec Driven Development verhindert und Vibe Coding produktionsreif macht.
Kimi Websites von Moonshot AI: Visual Coding per Prompt, Screenshot oder Video. Multipage Sites ohne manuelles Coding. DSGVO Analyse f\u00fcr deutsche Entwickler 2026.
MiniMax M2.5: 230B-Parameter-MoE-Modell erreicht 80,2% auf SWE-bench zu 1/20 der Kosten von Claude Opus. Benchmarks, API-Zugang und DSGVO-Analyse.
Mistral Vibe ist Europas terminal-nativer KI-Coding-Agent. Devstral 2, Open-Source CLI, EU-Datenschutz. Jetzt Vibe 2.0 kennenlernen.
NVIDIA Nemotron erklärt: offene Foundation-Modelle für agentische KI, Reasoning, RAG und Vibe Coding. On-premise, DSGVO-konform, Symfony-Integration 2026.
OpenCode im Praxistest: Open-Source-Alternative zu Claude Code mit 100K GitHub Stars. Kein Provider-Lock-in, 75+ LLM-Anbieter, MCP-Integration. Lohnt es sich?
Qwen3-Coder: Open-Weight Coding Agent, 70,6% SWE-bench, 256K Kontext, läuft lokal via Ollama. Integration mit OpenCode und Claude Code – ohne API-Kosten.
Repo Prompt ist eine native macOS-App fuer Context Engineering beim KI-gestuetzten Coding. Features, MCP-Integration und Vergleich 2026.