Qwen3-Coder – Lokales Vibe Coding ohne API-Kosten
Qwen3-Coder: Open-Weight Coding Agent, 70,6% SWE-bench, 256K Kontext, läuft lokal via Ollama. Integration mit OpenCode und Claude Code – ohne API-Kosten.
Mehr erfahren
Qwen3.6 35B A3B ist die erste Open Weight Variante der Qwen3.6 Generation von Alibaba und seit dem 16. April 2026 unter Apache 2.0 Lizenz verfügbar. Das Modell ist eine Mixture of Experts Architektur mit 35 Milliarden Parametern insgesamt und nur 3 Milliarden aktiv pro Token, kombiniert mit nativer 256K Kontextlänge und multimodalen Fähigkeiten (Text und Vision).
Das Modell ist der direkte Nachfolger von Qwen3 Coder und liefert deutlich verbesserte Benchmarks im agentischen Coding: SWE Bench Verified springt auf 73,4 Prozent, Terminal Bench 2.0 auf 51,5 Prozent und QwenWebBench steigt von 978 auf 1.397 Punkte (plus 43 Prozent). Besonders relevant ist die neue Funktion Thinking Preservation, die Reasoning Kontext aus historischen Nachrichten erhält und iterative Agent Loops deutlich stabiler macht.
Die entscheidende Frage für deutsche Unternehmen 2026: Wie viel Budget frisst Ihre Cloud API aktuell auf, und wie sicher sind Ihre sensiblen Codebases bei US Anbietern wirklich? Mit Qwen3.6 35B A3B laufen agentische Coding Workflows DSGVO konform auf eigener Hardware, ohne Rate Limits, ohne Drittanbieter, ohne monatliche Überraschungen. NCA begleitet Teams beim Aufbau produktiver On Premise Setups als Ihr Vibe Coding Consulting Partner. Kostenlose Erstberatung unter roland@nevercodealone.de oder +49 176 24747727.
Roland Golla ist Entwickler aus Leidenschaft – seit über 20 Jahren. Er hat hunderte Projekte begleitet, von Legacy-Refactoring bis KI-Integration. Bei Vibe Coding verbindet er das Beste aus beiden Welten: Die Geschwindigkeit von KI-generiertem Code mit der Qualität professioneller Softwareentwicklung. Kein Bullshit, keine Agentur-Floskeln – direkte Hilfe von jemandem, der selbst täglich im Code steckt.
Qwen3.6 35B A3B nutzt eine Mixture of Experts Architektur: Von den 35 Milliarden Parametern werden pro Token nur 3 Milliarden aktiviert. Das Ergebnis ist die Performance eines großen Modells bei den Inferenzkosten eines kleinen. Unternehmen können das Modell dadurch auf Consumer GPUs oder moderaten Server Konfigurationen produktiv betreiben, ohne auf die Qualität eines Flagship Modells zu verzichten.
Die native Kontextlänge beträgt 262.144 Tokens (256K) und lässt sich mit YaRN Rope Scaling auf bis zu 1.010.000 Tokens erweitern. Damit ist das Modell in der Lage, ganze Monorepos als Kontext zu verarbeiten, ohne dass Retrieval oder Chunking notwendig wird. Auf Ollama stehen acht verschiedene Quantisierungen zur Verfügung, von 22 GB (NVFP4) über 24 GB (Q4_K_M, Standard) bis 71 GB (BF16).
Verfügbare Varianten auf Ollama:
Die Alibaba Qwen Benchmarks zeigen deutliche Fortschritte gegenüber dem Vorgänger und auch gegenüber dem direkten Open Weight Konkurrenten Gemma 4 von Google. Besonders relevant: SWE Bench Verified misst, wie gut ein Modell echte GitHub Issues in einem Agent Scaffold löst, und ist damit der aussagekräftigste Benchmark für agentisches Coding.
Benchmark Vergleich Qwen3.6 35B A3B vs. Qwen3.5 35B A3B vs. Gemma 4 31B:
Die Zahlen stammen aus der offiziellen Hugging Face Model Card und wurden unabhängig von The Decoder bestätigt. Entscheidend ist nicht die Gesamtzahl der Parameter, sondern die Effizienz der MoE Architektur: 3B aktive Parameter schlagen Gemma 4 mit 31B aktiven Parametern in fast allen Coding Disziplinen. Das bedeutet für Ihr Team drastisch niedrigere Hardware Anforderungen bei gleicher Qualität. NCA analysiert für Sie, welches Open Weight Modell zu Ihrem Tech Stack passt, und liefert den Business Case inklusive ROI Rechnung. Direkt anfragen unter roland@nevercodealone.de.
Die zwei wichtigsten Neuerungen von Qwen3.6 sind Agentic Coding und Thinking Preservation. Beide Features adressieren das Kernproblem, das Entwickler bei früheren Modellen regelmäßig erleben: KI Modelle können einzelne Codezeilen gut generieren, scheitern aber bei längeren Agent Loops, mehrstufigen Aufgaben und iterativer Entwicklung.
Agentic Coding bedeutet, dass das Modell aktiv in einer Entwicklungsschleife arbeitet: Es liest Dateien, löst Konflikte, trifft Entscheidungen über Prioritäten und liefert strukturierte Ergebnisse, die ein nachgelagertes System direkt ausführen kann. Qwen3.6 wurde genau für diese Rolle trainiert und integriert sich nahtlos mit Agent Frameworks wie OpenClaw, Claude Code, Codex und OpenCode.
Thinking Preservation ist der technische Begriff für einen neuen API Parameter, der Reasoning Kontext aus historischen Nachrichten zwischen Turns erhält. In klassischen Multi Turn Agent Loops wird Reasoning Information bei jedem Turn verworfen, was zu redundanten Überlegungen und erhöhten Token Kosten führt. Mit Thinking Preservation behält das Modell wichtige Zwischenschritte und kann auf frühere Entscheidungen aufbauen, ohne sie erneut herleiten zu müssen.
Die schnellste Möglichkeit, Qwen3.6 35B A3B lokal zu starten, ist Ollama. Nach der Installation reicht ein einziger Befehl, um das Modell herunterzuladen und sofort interaktiv zu nutzen:
# Ollama installieren (macOS oder Linux)
curl -fsSL https://ollama.com/install.sh | sh
# Qwen3.6 herunterladen und starten
ollama run qwen3.6
# Oder spezifische Quantisierung
ollama run qwen3.6:35b-a3b-q8_0
Für produktive Deployments empfiehlt sich vLLM mit OpenAI kompatibler API. Das erlaubt den direkten Betrieb als Drop in Replacement für OpenAI oder Claude Endpoints und skaliert deutlich besser unter Last.
# vLLM installieren
pip install vllm>=0.19.0
# Qwen3.6 als OpenAI kompatible API servieren
vllm serve Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tensor-parallel-size 1 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder
Für DSGVO konforme Produktions Setups in Deutschland und der EU empfiehlt NCA den Betrieb auf eigener Hardware oder bei einem europäischen Hoster wie Hetzner oder OVH. Die typischen Stolperfallen: falsch dimensionierte GPU, fehlerhafte YaRN Konfiguration für lange Kontexte, instabile Tool Calls bei produktiven Agent Loops. Wir übernehmen die Hardware Dimensionierung, die Installation, die Integration in bestehende CI/CD Pipelines und das Monitoring. Sparen Sie zwei bis drei Monate Trial and Error. Kostenlose Erstberatung als Vibe Coding Consulting Partner: roland@nevercodealone.de oder +49 176 24747727.
Qwen3.6 positioniert sich nicht als eigenständiges Tool, sondern als Reasoning Layer innerhalb eines wachsenden Ökosystems von Agent Frameworks. Ollama stellt dazu einen `launch` Command bereit, der das Modell direkt in die bekannten Coding Agents einbettet: Claude Code, Codex, OpenCode und OpenClaw. Das Modell liefert dabei die Intelligenz, während die Agent Frameworks die Ausführung, Tool Calls und User Interaktion übernehmen.
# Qwen3.6 als Backend für Claude Code
ollama launch claude --model qwen3.6
# Qwen3.6 als Backend für Codex
ollama launch codex --model qwen3.6
# Qwen3.6 als Backend für OpenCode
ollama launch opencode --model qwen3.6
# Qwen3.6 als Backend für OpenClaw
ollama launch openclaw --model qwen3.6
Diese Integration ist aus mehreren Gründen spannend: Sie kombiniert das ausgereifte User Interface etablierter Coding Agents mit einem Open Weight Modell, das komplett auf eigener Infrastruktur läuft. Damit entfallen API Kosten, Vendor Lock in und DSGVO Bedenken. Gleichzeitig bleibt die Entwickler Erfahrung identisch, weil das Modell transparent ausgetauscht wird.
Für Teams mit bestehenden Claude Code oder OpenCode Workflows ist der Umstieg auf Qwen3.6 als Backup oder primäres Modell ein kleiner Konfigurationsschritt, der monatlich vierstellige API Kosten einspart und gleichzeitig Firmen sensible Codebases schützt. NCA begleitet diesen Wechsel als fester Implementierungspartner: von der Hardware Beschaffung über die Umstellung der Entwickler Tools bis zum Monitoring im produktiven Betrieb. Fordern Sie ein konkretes Angebot für Ihr Team an: roland@nevercodealone.de.
Qwen3.6 prioritizes stability and real-world utility, offering developers a more intuitive, responsive, and genuinely productive coding experience.
Finde das passende Angebot für dein Projekt
Hey! Ich bin CodeBot. Lass uns herausfinden, wie wir dein Projekt zum Fliegen bringen.
Was soll entstehen?
Die wichtigsten Fragen zu Qwen3.6 35B A3B, der Open Weight Architektur, den Benchmarks 2026 und dem produktiven Einsatz in Unternehmen, kurz und direkt beantwortet.
Qwen3.6 35B A3B ist die erste Open Weight Variante der Qwen3.6 Generation (Release April 2026). Das MoE Modell aktiviert nur 3 Milliarden der 35 Milliarden Parameter pro Token und erreicht damit 73,4 Prozent auf SWE Bench Verified. Entscheidend sind die neuen Features Agentic Coding und Thinking Preservation für stabile iterative Entwicklungs Workflows.
Qwen3.6 springt auf nahezu allen Benchmarks deutlich nach oben. QwenWebBench legt von 978 auf 1.397 Punkte zu (plus 43 Prozent), NL2Repo von 20,5 auf 29,4 Punkte, MCPMark von 27,0 auf 37,0 Punkte. Die Architektur wurde bei gleicher Größe verfeinert und um Thinking Preservation erweitert, der größte Nutzen für Entwickler ist die Stabilität in langen Agent Loops.
Die Standard Variante (Q4_K_M, 24 GB) läuft auf einer modernen Consumer GPU mit mindestens 24 GB VRAM, etwa RTX 4090 oder RTX 3090 Ti. Für produktive Deployments empfehlen wir Server mit NVIDIA A100, H100 oder äquivalent. Auf Apple Silicon funktioniert die MLX Variante (70 GB, BF16) mit mindestens 96 GB Unified Memory.
Ja. Qwen3.6 35B A3B ist unter Apache 2.0 Lizenz veröffentlicht und damit ohne Einschränkungen für kommerzielle Nutzung freigegeben. Unternehmen können das Modell lokal oder auf eigener Infrastruktur betreiben, ohne Lizenzgebühren, ohne Nutzungsbeschränkungen und ohne Weitergabe von Daten an Dritte.
Ollama stellt den Befehl `ollama launch` bereit, der Qwen3.6 direkt in bekannte Coding Agents einbettet. Ein einziger Befehl reicht, um Qwen3.6 als Backend zu aktivieren, etwa `ollama launch claude --model qwen3.6` oder `ollama launch openclaw --model qwen3.6`. Die Entwickler Erfahrung bleibt identisch, das Modell wird transparent ausgetauscht.
Thinking Preservation ist ein neuer API Parameter, der Reasoning Kontext aus historischen Nachrichten zwischen Turns erhält. In klassischen Multi Turn Agent Loops wird Reasoning Information bei jedem Turn verworfen. Mit Thinking Preservation behält das Modell Zwischenschritte und baut auf früheren Entscheidungen auf, das reduziert Token Kosten und stabilisiert lange Agent Sessions.
Qwen3.6 35B A3B schlägt Gemma 4 31B in praktisch allen Coding relevanten Benchmarks. Auf SWE Bench Verified liegt Qwen3.6 bei 73,4 Prozent, Gemma 4 bei 52,0 Prozent. Auf Terminal Bench 2.0 liegt Qwen3.6 bei 51,5 Prozent, Gemma 4 bei 42,9 Prozent. Beachtenswert: Qwen3.6 erreicht das mit nur 3B aktiven Parametern, Gemma 4 nutzt 31B Dense.
Ja. Die Standard Variante von Qwen3.6 35B A3B ist multimodal und verarbeitet Text und Bilder. Nur die NVFP4 und MXFP8 Varianten sind reine Text Modelle ohne Vision Support. Alle BF16, Q4_K_M und Q8_0 Varianten unterstützen multimodale Inputs und können für Dokumentenanalyse, Screenshot Verarbeitung und visuelle Code Review eingesetzt werden.
Qwen3.6 unterstützt nativ 262.144 Tokens, also 256K Kontext. Mit YaRN Rope Scaling lässt sich der Kontext auf bis zu 1.010.000 Tokens erweitern. YaRN wird von transformers, vllm, ktransformers und sglang unterstützt. Für ganze Monorepos reicht der native Kontext in aller Regel aus, ohne Retrieval oder Chunking.
Die Lizenz ist kostenlos (Apache 2.0). Die Betriebskosten hängen von der Hardware ab: Auf einer RTX 4090 entstehen ausschließlich Stromkosten, typischerweise 20 bis 40 Euro pro Monat bei 8 Stunden täglicher Nutzung. Bei Hetzner oder OVH GPU Servern mit A100 liegen die Kosten bei etwa 1,50 bis 3 Euro pro Stunde. Keine API Kosten, keine Rate Limits, keine Drittanbieter.
Auf Apple Silicon läuft Qwen3.6 am besten über Ollama oder die MLX Variante. Mit Ollama reicht `curl -fsSL https://ollama.com/install.sh | sh` gefolgt von `ollama run qwen3.6`. Für die MLX Variante (optimiert für Apple Silicon) sind mindestens 96 GB Unified Memory empfohlen, damit das BF16 Modell flüssig läuft.
NCA begleitet Unternehmen beim Aufbau DSGVO konformer On Premise KI Infrastruktur mit Qwen3.6 und ähnlichen Open Weight Modellen. Unsere Leistungen umfassen Hardware Dimensionierung, Installation mit Ollama oder vLLM, Integration in Claude Code und OpenClaw Workflows sowie Vibe Coding Consulting für Entwickler Teams. Erstberatung kostenlos unter roland@nevercodealone.de.
Bind AI ist ein US-amerikanisches Cloud-Tool – wir erklären, warum lokale Vibe Coding Infrastruktur für professionelle Entwickler die bessere Wahl ist.
Cerebras liefert mit dem Wafer Scale Engine Chip die schnellste KI Inference der Welt und bietet eine OpenAI kompatible API fuer Vibe Coding und agentische Workflows.
Claude Code im Praxis-Check: Agentic Coding im Terminal, CLAUDE.md, MCP-Server, Git-Workflows und Subagenten. Kosten, Installation und Vergleich mit Cursor 2026.
Anthropics neues Feature scannt Codebasen auf Schwachstellen und generiert Patch-Vorschläge – mit Multi-Stage-Verifikation und menschlichem Review.
Codex von OpenAI als CLI und App: GPT 5.3 Codex, goal Long Horizon Modus, Skills, Plugins, Computer Use. NCA bewertet die Plattform editorial und kritisch.
Context7 von Upstash liefert versionsspezifische Library-Dokumentation direkt in den LLM-Kontext. Schluss mit halluzinierten APIs und veralteten Code-Beispielen.
Crush verbindet 15+ KI-Provider im Terminal – ohne GUI, ohne Lock-in. Multi-Model-Support, LSP-Integration, MCP-Server. Die ehrliche Einordnung für Entwickler 2026.
Cursor BugBot ist Cursors KI-Agent für automatisches Code-Review direkt im Editor. Mit über 2 Millionen analysierten Pull Requests pro Monat und 70 % Resolution Rate ist er 2026 ein zentrales Tool im Vibe-Coding-Workflow.
DeepSeek bietet leistungsstarke Open-Source-Modelle für Code-Generierung – von Coder V2 bis zum angekündigten V4. Doch der DSGVO-Konflikt bleibt: API-Nutzung überträgt Daten nach China. Die ehrliche Einordnung für Entwickler 2026.
Gas Town koordiniert bis zu 30 parallele KI-Coding-Agents mit persistentem Work-State via Git-Hooks. Der fehlende Orchestrierungs-Layer für ernsthaftes Vibe Coding.
Gemma 3 l\u00e4uft lokal auf Laptop oder Workstation, ist DSGVO-konform und unterst\u00fctzt Ollama, Cursor und Hugging Face. NCA erkl\u00e4rt Einsatz und Varianten.
Gemma 4 erschien am 2. April 2026 mit Apache 2.0 Lizenz, 4 Modellgrößen und nativer Multimodalität. NCA erklärt Einsatz, Varianten und lokale Installation.
GLM-5 Turbo ist Zhipu AIs spezialisiertes OpenClaw-Modell mit 200K Kontext, pr\u00e4zisem Tool-Calling und ZClawBench-zertifizierter Agent-Performance 2026.
GLM-5 unter MIT-Lizenz: 5-8x günstiger als Claude Opus, trainiert auf Huawei-Chips. Benchmarks, Kosten, Ollama-Integration und Enterprise-Einsatz im Überblick.
GSD (Get Shit Done) verhindert Context Rot in Claude Code durch Sub Agents, Spec Driven Development und 6 klare Slash Commands. Jetzt erkl\u00e4rt von NCA.
Kimi K2.6 vs Qwen3.6 Plus im direkten AI Coding Vergleich. Benchmarks, Preise und Use Cases für Vibe Coding Teams.
Mit Kimi Websites von Moonshot AI werden Websites per Prompt, Screenshot oder Video Input generiert. Was das Feature 2026 kann und wo die Grenzen f\u00fcr DSGVO konforme Projekte liegen.
MiniMax M2.5 erreicht 80,2% auf SWE-bench bei 1/20 der Kosten von Claude Opus. Open Weights, 230B MoE-Architektur, IDE-Integrationen und DSGVO-Bewertung.
Mistral Vibe 2.0 ist ein terminal-nativer Open-Source Coding-Agent auf Basis von Devstral 2. EU-Datenschutz, DSGVO-konform, fine-tunebar auf proprietären Code.
Die 5 wichtigsten Open Source NVIDIA Modelle fürs Coding: Nemotron 3 Super 120B, Nano 30B, Nano 9B v2, Nano 4B und StarCoder2 15B im direkten Vergleich.
Offene KI-Modelle für Reasoning, RAG und Vibe Coding – on-premise, DSGVO-konform und Symfony-ready. NCA zeigt wie.
Beliebte Ollama Modelle 2026 für AI und Vibe Coding im Vergleich: Qwen3 Coder, Llama 4 Scout, DeepSeek R1, GLM 5, Kimi K2.6 mit Hardware Tiers und NCA Einordnung.
OpenCode verbindet 75+ KI-Modelle im Terminal – ohne Provider-Lock-in. Kein Abo-Zwang, MCP-Integration, LSP-Support. Die ehrliche Einordnung für Entwickler 2026.
Qwen3-Coder ist Alibabas Open-Weight Coding Agent für lokales Vibe Coding. 70,6% SWE-bench Verified, Ollama-Integration, DSGVO-konform.
Qwen3 Coder Next von Alibaba ist im Planungsmodus unschlagbar. Mit unserer offenen AGENTS.md aus den NCA dotfiles wird das lokale Coding Modell zum produktiven Enabling Layer.
Repo Prompt ist eine native macOS-App, die Entwicklern präzise Kontrolle über den KI-Kontext beim Coding gibt. Mit MCP-Server, Context Builder und Multi-Model-Support.