Grünes Qwen3.6 Neon Logo zentriert mit Ollama Lama und China Flagge

Was ist Qwen3.6 35B A3B?

Qwen3.6 35B A3B ist die erste Open Weight Variante der Qwen3.6 Generation von Alibaba und seit dem 16. April 2026 unter Apache 2.0 Lizenz verfügbar. Das Modell ist eine Mixture of Experts Architektur mit 35 Milliarden Parametern insgesamt und nur 3 Milliarden aktiv pro Token, kombiniert mit nativer 256K Kontextlänge und multimodalen Fähigkeiten (Text und Vision).

Das Modell ist der direkte Nachfolger von Qwen3 Coder und liefert deutlich verbesserte Benchmarks im agentischen Coding: SWE Bench Verified springt auf 73,4 Prozent, Terminal Bench 2.0 auf 51,5 Prozent und QwenWebBench steigt von 978 auf 1.397 Punkte (plus 43 Prozent). Besonders relevant ist die neue Funktion Thinking Preservation, die Reasoning Kontext aus historischen Nachrichten erhält und iterative Agent Loops deutlich stabiler macht.

Die entscheidende Frage für deutsche Unternehmen 2026: Wie viel Budget frisst Ihre Cloud API aktuell auf, und wie sicher sind Ihre sensiblen Codebases bei US Anbietern wirklich? Mit Qwen3.6 35B A3B laufen agentische Coding Workflows DSGVO konform auf eigener Hardware, ohne Rate Limits, ohne Drittanbieter, ohne monatliche Überraschungen. NCA begleitet Teams beim Aufbau produktiver On Premise Setups als Ihr Vibe Coding Consulting Partner. Kostenlose Erstberatung unter roland@nevercodealone.de oder +49 176 24747727.

CYPRESS.IO Ambassador und IT Consultant für QA Engenieering und Qualität in PHP Projekten.

NCA Vibe Coding Consulting

Roland Golla ist Entwickler aus Leidenschaft – seit über 20 Jahren. Er hat hunderte Projekte begleitet, von Legacy-Refactoring bis KI-Integration. Bei Vibe Coding verbindet er das Beste aus beiden Welten: Die Geschwindigkeit von KI-generiertem Code mit der Qualität professioneller Softwareentwicklung. Kein Bullshit, keine Agentur-Floskeln – direkte Hilfe von jemandem, der selbst täglich im Code steckt.

E-Mail Kontakt

MoE Architektur: 35B Parameter, nur 3B aktiv

Qwen3.6 35B A3B nutzt eine Mixture of Experts Architektur: Von den 35 Milliarden Parametern werden pro Token nur 3 Milliarden aktiviert. Das Ergebnis ist die Performance eines großen Modells bei den Inferenzkosten eines kleinen. Unternehmen können das Modell dadurch auf Consumer GPUs oder moderaten Server Konfigurationen produktiv betreiben, ohne auf die Qualität eines Flagship Modells zu verzichten.

Die native Kontextlänge beträgt 262.144 Tokens (256K) und lässt sich mit YaRN Rope Scaling auf bis zu 1.010.000 Tokens erweitern. Damit ist das Modell in der Lage, ganze Monorepos als Kontext zu verarbeiten, ohne dass Retrieval oder Chunking notwendig wird. Auf Ollama stehen acht verschiedene Quantisierungen zur Verfügung, von 22 GB (NVFP4) über 24 GB (Q4_K_M, Standard) bis 71 GB (BF16).

Verfügbare Varianten auf Ollama:

qwen3.6:35b-a3b (24 GB, Text + Vision, Standard)
qwen3.6:35b-a3b-nvfp4 (22 GB, nur Text, optimiert für NVIDIA)
qwen3.6:35b-a3b-q8_0 (39 GB, Text + Vision, höhere Qualität)
qwen3.6:35b-a3b-bf16 (71 GB, Text + Vision, volle Präzision)
qwen3.6:35b-a3b-mlx-bf16 (70 GB, für Apple Silicon über MLX)

Benchmarks 2026: Qwen3.6 im Vergleich zu Qwen3.5 und Gemma 4

Die Alibaba Qwen Benchmarks zeigen deutliche Fortschritte gegenüber dem Vorgänger und auch gegenüber dem direkten Open Weight Konkurrenten Gemma 4 von Google. Besonders relevant: SWE Bench Verified misst, wie gut ein Modell echte GitHub Issues in einem Agent Scaffold löst, und ist damit der aussagekräftigste Benchmark für agentisches Coding.

Benchmark Vergleich Qwen3.6 35B A3B vs. Qwen3.5 35B A3B vs. Gemma 4 31B:

SWE Bench Verified: Qwen3.6 erreicht 73,4 Prozent, Gemma 4 kommt auf 52,0 Prozent
Terminal Bench 2.0: Qwen3.6 mit 51,5 Prozent, Gemma 4 mit 42,9 Prozent
GPQA (Reasoning): Qwen3.6 mit 86,0 Prozent, Gemma 4 mit 84,3 Prozent
AIME 2026 (Math): Qwen3.6 mit 92,7 Prozent, Gemma 4 mit 89,2 Prozent
QwenWebBench (Frontend): Sprung von 978 auf 1.397 Punkte, plus 43 Prozent gegenüber 3.5
NL2Repo (Repo Reasoning): Verbesserung von 20,5 auf 29,4 Punkte
MCPMark (Tool Use): Sprung von 27,0 auf 37,0 Punkte

Die Zahlen stammen aus der offiziellen Hugging Face Model Card und wurden unabhängig von The Decoder bestätigt. Entscheidend ist nicht die Gesamtzahl der Parameter, sondern die Effizienz der MoE Architektur: 3B aktive Parameter schlagen Gemma 4 mit 31B aktiven Parametern in fast allen Coding Disziplinen. Das bedeutet für Ihr Team drastisch niedrigere Hardware Anforderungen bei gleicher Qualität. NCA analysiert für Sie, welches Open Weight Modell zu Ihrem Tech Stack passt, und liefert den Business Case inklusive ROI Rechnung. Direkt anfragen unter roland@nevercodealone.de.

Agentic Coding und Thinking Preservation: Was ist neu?

Die zwei wichtigsten Neuerungen von Qwen3.6 sind Agentic Coding und Thinking Preservation. Beide Features adressieren das Kernproblem, das Entwickler bei früheren Modellen regelmäßig erleben: KI Modelle können einzelne Codezeilen gut generieren, scheitern aber bei längeren Agent Loops, mehrstufigen Aufgaben und iterativer Entwicklung.

Agentic Coding bedeutet, dass das Modell aktiv in einer Entwicklungsschleife arbeitet: Es liest Dateien, löst Konflikte, trifft Entscheidungen über Prioritäten und liefert strukturierte Ergebnisse, die ein nachgelagertes System direkt ausführen kann. Qwen3.6 wurde genau für diese Rolle trainiert und integriert sich nahtlos mit Agent Frameworks wie OpenClaw, Claude Code, Codex und OpenCode.

Thinking Preservation ist der technische Begriff für einen neuen API Parameter, der Reasoning Kontext aus historischen Nachrichten zwischen Turns erhält. In klassischen Multi Turn Agent Loops wird Reasoning Information bei jedem Turn verworfen, was zu redundanten Überlegungen und erhöhten Token Kosten führt. Mit Thinking Preservation behält das Modell wichtige Zwischenschritte und kann auf frühere Entscheidungen aufbauen, ohne sie erneut herleiten zu müssen.

Qwen3.6 lokal installieren: Ollama und vLLM

Die schnellste Möglichkeit, Qwen3.6 35B A3B lokal zu starten, ist Ollama. Nach der Installation reicht ein einziger Befehl, um das Modell herunterzuladen und sofort interaktiv zu nutzen:

Code:

          # Ollama installieren (macOS oder Linux)
curl -fsSL https://ollama.com/install.sh | sh

# Qwen3.6 herunterladen und starten
ollama run qwen3.6

# Oder spezifische Quantisierung
ollama run qwen3.6:35b-a3b-q8_0

Für produktive Deployments empfiehlt sich vLLM mit OpenAI kompatibler API. Das erlaubt den direkten Betrieb als Drop in Replacement für OpenAI oder Claude Endpoints und skaliert deutlich besser unter Last.

Code:

          # vLLM installieren
pip install vllm>=0.19.0

# Qwen3.6 als OpenAI kompatible API servieren
vllm serve Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 1 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

Für DSGVO konforme Produktions Setups in Deutschland und der EU empfiehlt NCA den Betrieb auf eigener Hardware oder bei einem europäischen Hoster wie Hetzner oder OVH. Die typischen Stolperfallen: falsch dimensionierte GPU, fehlerhafte YaRN Konfiguration für lange Kontexte, instabile Tool Calls bei produktiven Agent Loops. Wir übernehmen die Hardware Dimensionierung, die Installation, die Integration in bestehende CI/CD Pipelines und das Monitoring. Sparen Sie zwei bis drei Monate Trial and Error. Kostenlose Erstberatung als Vibe Coding Consulting Partner: roland@nevercodealone.de oder +49 176 24747727.

Integration mit Claude Code, Codex, OpenCode und OpenClaw

Qwen3.6 positioniert sich nicht als eigenständiges Tool, sondern als Reasoning Layer innerhalb eines wachsenden Ökosystems von Agent Frameworks. Ollama stellt dazu einen `launch` Command bereit, der das Modell direkt in die bekannten Coding Agents einbettet: Claude Code, Codex, OpenCode und OpenClaw. Das Modell liefert dabei die Intelligenz, während die Agent Frameworks die Ausführung, Tool Calls und User Interaktion übernehmen.

Code:

          # Qwen3.6 als Backend für Claude Code
ollama launch claude --model qwen3.6

# Qwen3.6 als Backend für Codex
ollama launch codex --model qwen3.6

# Qwen3.6 als Backend für OpenCode
ollama launch opencode --model qwen3.6

# Qwen3.6 als Backend für OpenClaw
ollama launch openclaw --model qwen3.6

Diese Integration ist aus mehreren Gründen spannend: Sie kombiniert das ausgereifte User Interface etablierter Coding Agents mit einem Open Weight Modell, das komplett auf eigener Infrastruktur läuft. Damit entfallen API Kosten, Vendor Lock in und DSGVO Bedenken. Gleichzeitig bleibt die Entwickler Erfahrung identisch, weil das Modell transparent ausgetauscht wird.

Für Teams mit bestehenden Claude Code oder OpenCode Workflows ist der Umstieg auf Qwen3.6 als Backup oder primäres Modell ein kleiner Konfigurationsschritt, der monatlich vierstellige API Kosten einspart und gleichzeitig Firmen sensible Codebases schützt. NCA begleitet diesen Wechsel als fester Implementierungspartner: von der Hardware Beschaffung über die Umstellung der Entwickler Tools bis zum Monitoring im produktiven Betrieb. Fordern Sie ein konkretes Angebot für Ihr Team an: roland@nevercodealone.de.

Qwen3.6 prioritizes stability and real-world utility, offering developers a more intuitive, responsive, and genuinely productive coding experience.

Qwen Team, Entwicklerteam, Alibaba Group – Hugging Face Model Card (16. April 2026)

Qwen3-Coder – Lokales Vibe Coding ohne API-Kosten

Qwen3-Coder: Open-Weight Coding Agent, 70,6% SWE-bench, 256K Kontext, läuft lokal via Ollama. Integration mit OpenCode und Claude Code – ohne API-Kosten.

Mehr erfahren

Crush: Der glamouröse KI-Coding-Agent fürs Terminal von Charmbracelet

Crush von Charmbracelet: Open-Source KI-Coding-Agent fürs Terminal. Multi-Model, LSP-Support, MCP-Integration. Installation, Konfiguration und Praxistipps.

Mehr erfahren

Qwen3 Coder Next über Ollama: Enabling Layer für Vibe Coder 2026

Qwen3 Coder Next läuft lokal über Ollama mit 80B Parametern und 3B aktiv. NCA setzt das Modell im Planungsmodus mit eigener AGENTS.md ein.

Mehr erfahren

Lass uns sprechen

Finde das passende Angebot für dein Projekt

🤖

Hey! Ich bin CodeBot. Lass uns herausfinden, wie wir dein Projekt zum Fliegen bringen.

Was soll entstehen?

Häufige Fragen zu Qwen3.6 35B A3B

Die wichtigsten Fragen zu Qwen3.6 35B A3B, der Open Weight Architektur, den Benchmarks 2026 und dem produktiven Einsatz in Unternehmen, kurz und direkt beantwortet.

Was macht Qwen3.6 35B A3B 2026 besonders?

Qwen3.6 35B A3B ist die erste Open Weight Variante der Qwen3.6 Generation (Release April 2026). Das MoE Modell aktiviert nur 3 Milliarden der 35 Milliarden Parameter pro Token und erreicht damit 73,4 Prozent auf SWE Bench Verified. Entscheidend sind die neuen Features Agentic Coding und Thinking Preservation für stabile iterative Entwicklungs Workflows.

Wie unterscheidet sich Qwen3.6 von Qwen3.5 im Vergleich 2026?

Qwen3.6 springt auf nahezu allen Benchmarks deutlich nach oben. QwenWebBench legt von 978 auf 1.397 Punkte zu (plus 43 Prozent), NL2Repo von 20,5 auf 29,4 Punkte, MCPMark von 27,0 auf 37,0 Punkte. Die Architektur wurde bei gleicher Größe verfeinert und um Thinking Preservation erweitert, der größte Nutzen für Entwickler ist die Stabilität in langen Agent Loops.

Welche Hardware benötigt Qwen3.6 35B A3B im Einsatz 2026?

Die Standard Variante (Q4_K_M, 24 GB) läuft auf einer modernen Consumer GPU mit mindestens 24 GB VRAM, etwa RTX 4090 oder RTX 3090 Ti. Für produktive Deployments empfehlen wir Server mit NVIDIA A100, H100 oder äquivalent. Auf Apple Silicon funktioniert die MLX Variante (70 GB, BF16) mit mindestens 96 GB Unified Memory.

Ist Qwen3.6 für kommerzielle Projekte 2026 freigegeben?

Ja. Qwen3.6 35B A3B ist unter Apache 2.0 Lizenz veröffentlicht und damit ohne Einschränkungen für kommerzielle Nutzung freigegeben. Unternehmen können das Modell lokal oder auf eigener Infrastruktur betreiben, ohne Lizenzgebühren, ohne Nutzungsbeschränkungen und ohne Weitergabe von Daten an Dritte.

Wie läuft Qwen3.6 mit Claude Code oder OpenClaw 2026 zusammen?

Ollama stellt den Befehl `ollama launch` bereit, der Qwen3.6 direkt in bekannte Coding Agents einbettet. Ein einziger Befehl reicht, um Qwen3.6 als Backend zu aktivieren, etwa `ollama launch claude --model qwen3.6` oder `ollama launch openclaw --model qwen3.6`. Die Entwickler Erfahrung bleibt identisch, das Modell wird transparent ausgetauscht.

Was ist Thinking Preservation bei Qwen3.6?

Thinking Preservation ist ein neuer API Parameter, der Reasoning Kontext aus historischen Nachrichten zwischen Turns erhält. In klassischen Multi Turn Agent Loops wird Reasoning Information bei jedem Turn verworfen. Mit Thinking Preservation behält das Modell Zwischenschritte und baut auf früheren Entscheidungen auf, das reduziert Token Kosten und stabilisiert lange Agent Sessions.

Wie schneidet Qwen3.6 gegen Gemma 4 von Google ab?

Qwen3.6 35B A3B schlägt Gemma 4 31B in praktisch allen Coding relevanten Benchmarks. Auf SWE Bench Verified liegt Qwen3.6 bei 73,4 Prozent, Gemma 4 bei 52,0 Prozent. Auf Terminal Bench 2.0 liegt Qwen3.6 bei 51,5 Prozent, Gemma 4 bei 42,9 Prozent. Beachtenswert: Qwen3.6 erreicht das mit nur 3B aktiven Parametern, Gemma 4 nutzt 31B Dense.

Kann Qwen3.6 auch Bilder verarbeiten?

Ja. Die Standard Variante von Qwen3.6 35B A3B ist multimodal und verarbeitet Text und Bilder. Nur die NVFP4 und MXFP8 Varianten sind reine Text Modelle ohne Vision Support. Alle BF16, Q4_K_M und Q8_0 Varianten unterstützen multimodale Inputs und können für Dokumentenanalyse, Screenshot Verarbeitung und visuelle Code Review eingesetzt werden.

Wie groß ist der Kontext von Qwen3.6 35B A3B?

Qwen3.6 unterstützt nativ 262.144 Tokens, also 256K Kontext. Mit YaRN Rope Scaling lässt sich der Kontext auf bis zu 1.010.000 Tokens erweitern. YaRN wird von transformers, vllm, ktransformers und sglang unterstützt. Für ganze Monorepos reicht der native Kontext in aller Regel aus, ohne Retrieval oder Chunking.

Was kostet Qwen3.6 35B A3B im Betrieb?

Die Lizenz ist kostenlos (Apache 2.0). Die Betriebskosten hängen von der Hardware ab: Auf einer RTX 4090 entstehen ausschließlich Stromkosten, typischerweise 20 bis 40 Euro pro Monat bei 8 Stunden täglicher Nutzung. Bei Hetzner oder OVH GPU Servern mit A100 liegen die Kosten bei etwa 1,50 bis 3 Euro pro Stunde. Keine API Kosten, keine Rate Limits, keine Drittanbieter.

Wie starte ich mit Qwen3.6 auf meinem Mac?

Auf Apple Silicon läuft Qwen3.6 am besten über Ollama oder die MLX Variante. Mit Ollama reicht `curl -fsSL https://ollama.com/install.sh | sh` gefolgt von `ollama run qwen3.6`. Für die MLX Variante (optimiert für Apple Silicon) sind mindestens 96 GB Unified Memory empfohlen, damit das BF16 Modell flüssig läuft.

Wie unterstützt NCA beim Einsatz von Qwen3.6 im Unternehmen?

NCA begleitet Unternehmen beim Aufbau DSGVO konformer On Premise KI Infrastruktur mit Qwen3.6 und ähnlichen Open Weight Modellen. Unsere Leistungen umfassen Hardware Dimensionierung, Installation mit Ollama oder vLLM, Integration in Claude Code und OpenClaw Workflows sowie Vibe Coding Consulting für Entwickler Teams. Erstberatung kostenlos unter roland@nevercodealone.de.

Bind AI – Warum lokale Vibe Coding Infrastruktur die bessere Wahl ist 2026