Browser Window mit OLLAMA 2026 Wordmark und Rakete für lokale KI Modelle

Was sind Ollama Modelle für AI und Vibe Coding 2026?

Ollama Modelle sind Open Weight Large Language Models, die lokal über die Ollama Runtime auf eigener Hardware laufen. 2026 dominieren MoE Architekturen wie Qwen3 Coder, Llama 4 Scout, DeepSeek R1, GLM 5 und Kimi K2.6 die Liste der beliebtesten lokalen Modelle für AI und Vibe Coding.

Ollama hat sich von einer Nischenlösung zum Standard für lokale KI entwickelt. Im ersten Quartal 2026 erreichte die Runtime 52 Millionen Monatsdownloads. Der Grund: Die Modelle wurden gut genug. Nicht so gut wie Claude Opus oder GPT 5, aber gut genug für einen relevanten Anteil alltäglicher Coding Aufgaben.

Die wichtigste Entwicklung 2026 ist die Mixture of Experts Architektur. Modelle wie Qwen3 Coder 30B aktivieren nur 3,3 Milliarden Parameter pro Token von 30 Milliarden Gesamtparametern. Das Resultat: Qualität eines großen Modells bei Speed und Memory Footprint eines kleinen. Lokale Inferenz auf einer RTX 4090 oder einem MacBook Pro M3 Max wird damit praktikabel für tägliches Vibe Coding.

Ollama Modelle mit NCA: Erfahrung aus dem eigenen Production Stack

Bei Never Code Alone setzen wir Ollama täglich produktiv ein. Unser lokaler KI Stack basiert auf Qwen und Llama Modellen, ergänzt um Gemini, GLM 5 und MiniMax für spezifische Workflows. Das heißt: Wir kennen die Stärken, Schwächen und Hardware Anforderungen jedes hier vorgestellten Modells aus echter täglicher Nutzung.

Welches Modell zu welchem Workflow passt, ist nicht trivial. Wir beraten Teams bei der Auswahl zwischen Cloud APIs und lokalem Stack, helfen bei der Vibe Coding Beratung mit konkreten Einordnungen, bauen Vibe Coding Best Practices in eure Prozesse ein und retten Projekte, die mit der falschen Modell Wahl gestartet sind. Dazu gehören auch komplementäre Themen wie Claude Code Workflows oder die Integration mit OpenCode als Terminal Agent. Für DSGVO konforme Infrastruktur arbeiten wir mit gehosteter Inferenz über unseren Partner Conversis Duisburg als Enterprise Option.

Lass uns sprechen

Finde das passende Angebot für dein Projekt

🤖

Hey! Ich bin CodeBot. Lass uns herausfinden, wie wir dein Projekt zum Fliegen bringen.

Was soll entstehen?

Die beliebtesten Ollama Modelle im Mai 2026

Stand Mai 2026 dominieren fünf Modell Familien die Liste der beliebtesten Ollama Downloads: Meta Llama, Qwen von Alibaba, DeepSeek, Gemma von Google und Mistral. Dazu kommen drei neuere Frontier Modelle mit großem Zuspruch in den letzten Wochen: Kimi K2.6 von Moonshot AI, GLM 5 von Zhipu AI und das frische Qwen 3.6 27B.

Die folgende Übersicht zeigt die wichtigsten Modelle nach Einsatzzweck, mit ihrer ungefähren VRAM Anforderung in der gängigen Q4 Quantisierung. Detail Seiten zu jedem Modell sind weiter unten und am Ende der Seite verlinkt.

Modell	Stärke 2026	VRAM Tier
Qwen3 Coder 30B A3B	Agentic Coding, SWE Bench RL trained	16 bis 24 GB
Qwen 3.6 27B	Bestes Dense Coding Modell, 77 Prozent SWE Bench	24 bis 32 GB
Llama 4 Scout	Allrounder, 10M Kontext, MoE	10 bis 16 GB aktiv
DeepSeek R1	Chain of Thought Reasoning	8 bis 48 GB je Variante
GLM 5	Frontier Open Source, 128K Kontext	24 GB bis Cloud
Kimi K2.6	Tier A Coding, MIT Lizenz	Cloud oder High End
Gemma 4 26B	Natives Function Calling, Vision	16 bis 24 GB
Devstral Small 24B	Agentic Multi File Coding	16 GB
Codestral 22B	Autocomplete mit Fill in the Middle	16 GB
Mistral Nemo 12B	Effizient für Mid Range Hardware	12 GB

Aufsteigendes Säulendiagramm der vier Ollama VRAM Tiers BUDGET, SWEETSPOT, POWER, FRONTIER. Inhalt steht textuell in der Tabelle darüber.

Qwen Familie: Der Standard für lokales Vibe Coding

Die Qwen Familie von Alibaba ist 2026 die schnellst wachsende Modell Linie auf Ollama und gilt als das beste Open Weight Modell für Vibe Coding. Drei Varianten sind besonders relevant.

Qwen3 Coder 30B A3B ist das aktuelle Standard Modell für agentic Coding. Es aktiviert nur 3,3 Milliarden Parameter pro Token von 30 Milliarden Gesamt, unterstützt 256K Tokens nativ und bis zu 1 Million mit Yarn Extrapolation. Vortrainiert auf 7,5 Billionen Tokens mit 70 Prozent Code Anteil, RL trainiert auf SWE Bench für mehrstufige Workflows wie Multi File Edits und Debugging. Wir haben dem Modell eine eigene Seite gewidmet: Qwen3 Coder für lokales Vibe Coding und die experimentelle Variante Qwen3 Coder Next mit Planungsmodus.

Qwen 3.6 27B ist das beste Dense Coding Modell aktuell. Mit 77,2 Prozent SWE Bench schlägt es jedes andere dense Modell in dieser Größenklasse. Dense statt MoE bedeutet vorhersehbarere Latenz und einfacheres Memory Management. Details und Benchmarks im Qwen 3.6 Vergleich sowie im Kimi K2.6 vs Qwen 3.6 Plus Vergleich.

Code:

          # Qwen3 Coder ziehen und starten
ollama pull qwen3-coder:30b
ollama run qwen3-coder:30b

# Dense Variante
ollama pull qwen3.6:27b

Llama 4 Scout: Metas neuer Allrounder mit 10M Kontext

Llama 4 Scout erschien im April 2026 und ist seither rasant in den Ollama Charts gestiegen. Die Architektur ist MoE mit 17 Milliarden aktiven und 109 Milliarden Gesamtparametern. Trotz der hohen Gesamtgröße läuft Scout auf etwa 10 GB VRAM, weil pro Token nur die aktiven 17B geladen werden.

Der wirklich auffällige Wert ist das Kontextfenster: 10 Millionen Tokens nativ. Damit eignet sich Scout für Aufgaben, bei denen die ganze Repository in den Kontext muss: Codebase Audits, Architektur Reviews, lange Dokumente, Multi File Refactorings. Wir nutzen das Modell intern als General Purpose Allrounder neben Qwen3 Coder. Für tiefe agentic Coding Aufgaben bleibt Qwen3 Coder die bessere Wahl. Für alles, was viel Kontext braucht, ist Llama 4 Scout aktuell konkurrenzlos.

Code:

          ollama pull llama4:scout
ollama run llama4:scout

DeepSeek R1: Reasoning King für Architektur und Debugging

DeepSeek R1 ist ein Reasoning Modell mit sichtbarem Chain of Thought. Das Modell zeigt seinen Denkprozess vor der finalen Antwort, was es besonders stark macht für Architektur Diskussionen, komplexes Debugging und logikintensive Aufgaben. Auf Math, Coding und Logic Benchmarks erreicht R1 die Qualität von OpenAI o1 bei einem Bruchteil der Inferenzkosten.

Die MIT Lizenz macht R1 für kommerzielle Projekte interessant. Distillierte Varianten gibt es in 1.5B, 7B, 8B, 14B, 32B und 70B sowie das volle 671B Modell. Sweet Spot für lokale Nutzung ist die 14B Distillation: läuft auf einer RTX 3090 oder einem M2 Max, liefert deutlich bessere Reasoning Qualität als jedes Standard Modell vergleichbarer Größe. Eine ausführliche Einordnung findest du auf der DeepSeek Coding Glossar Seite.

Code:

          ollama pull deepseek-r1:14b   # Sweet Spot fuer Reasoning
ollama pull deepseek-r1:32b   # Mehr Tiefe
ollama pull deepseek-r1:8b    # Schmal aber brauchbar

GLM 5 von Zhipu AI: Chinesisches Frontier Open Source

GLM 5 von Zhipu AI hat sich 2026 als ernstzunehmendes Frontier Open Source Modell etabliert. Die Benchmark Werte sind stark: 92,7 Prozent auf AIME 2026 I, 86 Prozent GPQA Diamond, 77,8 Prozent SWE Bench Verified, 73,3 Prozent SWE Bench Multilingual. Das Modell nutzt DeepSeek Sparse Attention zur Reduktion der Inferenzkosten bei gleichzeitig 128K+ Kontext.

Für agentic Workflows bringt GLM 5 starke Werte mit: 62 BrowseComp, 56,2 Terminal Bench 2.0. Es eignet sich besonders für Teams, die einen lokal hosten baren Allrounder mit Coding Fähigkeit suchen, ohne auf Qwen oder Llama Stack festgelegt zu sein. Bei NCA setzen wir GLM 5 ergänzend zu Qwen ein. Tiefere Einordnung im GLM 5 Glossar Eintrag und in der Variante GLM 5 Turbo für OpenClaw Workflows.

Code:

          ollama pull glm-5
ollama pull glm-4.7-flash   # Leichtere Variante

Kimi K2.6 und MiniMax: Neue Frontier Open Source Modelle aus China

Kimi K2.6 von Moonshot AI ist im Mai 2026 das erste nicht westliche Modell, das Tier A in Coding Benchmarks erreicht hat. Die Architektur ist MoE mit 42 Milliarden aktiven Parametern und etwa 1 Billion Gesamtparametern. Lizenz: Modified MIT. Kimi K2.6 ist besonders stark bei Coding, Tool Use, visuellen Aufgaben und Long Horizon Agent Workflows.

Die schiere Größe macht lokales Hosting auf Consumer Hardware unpraktisch. Wer Kimi K2.6 testen will, nutzt die Ollama Cloud Variante oder eine GPU Workstation mit mindestens 250 GB Unified Memory. Ein direkter Vergleich mit der dichten Qwen Variante steht im Kimi K2.6 vs Qwen 3.6 Plus Test, eine eigene Übersicht zum Website Builder im Kimi Websites Glossar Eintrag.

MiniMax M2.5 ist die zweite chinesische Open Source Linie, die 2026 ernsthafte Verbreitung gefunden hat. Im NCA Stack nutzen wir MiniMax als Backup Modell für Workloads, bei denen Qwen und GLM 5 nicht gut performen. Details zum Modell im MiniMax M2.5 Glossar Eintrag.

Gemma 4 und Mistral Familie: Tool Calling und Effizienz

Gemma 4 26B A4B von Google ist 2026 das beste Modell für Workflows mit nativem Function Calling. Die Tool Use Fähigkeit ist direkt in die Modellgewichte trainiert, was die Zuverlässigkeit beim Tool Calling deutlich erhöht. Apache 2.0 Lizenz macht kommerzielle Nutzung unkompliziert. Vergleich der Generationen im Gemma 4 Glossar Eintrag sowie zur kleineren Vorgängergeneration im Gemma 3 Eintrag.

Die Mistral Familie liefert mehrere starke Spezialmodelle. Devstral Small 24B ist purpose built für agentic Coding und gilt für Multi File Refactorings als das beste lokale Modell auf 16 GB Hardware. Codestral 22B ist die erste Wahl für Autocomplete, weil es Fill in the Middle unterstützt, also Code basierend auf vorhergehendem und nachfolgendem Kontext vorhersagen kann. Mit Continue.dev erreicht Codestral 22B für die meisten Aufgaben Copilot Niveau. Eine eigene Seite zur europäischen Terminal Variante: Mistral Vibe als Terminal KI Coding Agent.

Code:

          ollama pull gemma4:26b
ollama pull devstral:24b
ollama pull codestral:22b

Hardware Empfehlung: Welches Modell läuft auf deiner Maschine?

Die Wahl des richtigen Modells hängt 2026 weniger von Benchmarks ab als vom verfügbaren Speicher. MoE Modelle verschieben die Rechnung, weil sie viel weniger aktive Parameter haben als ihre Gesamtgröße suggeriert. Folgende grobe Orientierung gilt für Q4 Quantisierung:

4 bis 8 GB VRAM: Phi 4 Mini, Qwen3 4B, Llama 3.2 3B, Gemma 3 4B. Diese Modelle reichen für Konversation, Zusammenfassungen und leichte Coding Aufgaben. Für tägliches Vibe Coding sind sie zu klein.

8 bis 16 GB VRAM: Qwen2.5 Coder 7B, DeepSeek R1 7B oder 14B, Llama 3.1 8B, Llama 4 Scout aktiv. In dieser Klasse beginnt seriöses lokales Coding. Llama 4 Scout ist hier besonders interessant, weil die MoE Architektur trotz 109B Gesamtgröße in diesem Tier läuft.

16 bis 24 GB VRAM: Qwen3 Coder 30B A3B, Qwen 3.6 27B, Devstral Small 24B, Codestral 22B, Gemma 4 26B. Das ist der Sweet Spot für lokales Vibe Coding 2026. Mit einer RTX 4090 oder einem MacBook Pro M3 Max ist alles in dieser Liste produktiv nutzbar.

24 GB plus: DeepSeek R1 32B, GLM 5, größere Qwen und Llama Varianten. Hier wird die Performance frontier nah. Für Teams, die lokal arbeiten wollen, lohnt sich Hardware in dieser Klasse über die Lebensdauer schnell. Wer keine eigene Hardware betreiben will, kann diese Modelle über gehostete Inferenz nutzen. Wir arbeiten dafür mit unserem Partner Conversis Duisburg für DSGVO konforme deutsche Server.

Integration in den Coding Workflow: Editor, Terminal, MCP

Ein Modell ist nur so gut wie seine Integration. Ollama läuft als lokaler API Server auf Port 11434 und spricht das OpenAI kompatible Format. Damit lassen sich alle gängigen Coding Workflows lokal versorgen.

Im Editor bieten sich Continue.dev für VS Code und JetBrains an. Beide unterstützen lokale Ollama Endpunkte ohne weitere Konfiguration. Für Terminal Workflows hat sich OpenCode als Open Source Coding Agent bewährt, ergänzt durch Crush für glamouröse Terminal Sessions. Wer den Vergleich zu Cloud APIs sucht, findet ihn im Artikel Bind AI vs lokale Vibe Coding Infrastruktur.

Für agentic Workflows mit MCP Servern eignet sich besonders Context7 als MCP Server für aktuelle Dokumentation. Damit bekommen lokale Modelle Zugriff auf frische Library Docs, was die Code Qualität bei aktuellen Frameworks deutlich verbessert.

Code:

          # Continue.dev mit lokalem Ollama Endpoint
# .continue/config.json
{
  "models": [{
    "title": "Qwen3 Coder lokal",
    "provider": "ollama",
    "model": "qwen3-coder:30b",
    "apiBase": "http://localhost:11434"
  }]
}

Grenzen lokaler Modelle: Wo Cloud APIs noch besser sind

So stark die Ollama Modelle 2026 sind, sie sind nicht in jedem Szenario die richtige Wahl. Selbst die besten lokalen Coding Modelle sind für anspruchsvolle Tasks jenseits von Standard Aufgaben merklich schwächer als Claude Opus oder GPT 5. Wer komplexe Architektur Reviews, mehrtägige Refactorings oder hochsensible Logik braucht, fährt mit Cloud APIs oft besser.

In NCA Beratungsprojekten erleben wir regelmäßig den Versuch, alles lokal zu machen, weil DSGVO Bedenken oder Kosten Gründe genannt werden. In der Praxis lohnt sich meist ein Hybrid Setup: Lokale Modelle für Autocomplete, Routine Tasks, sensiblen Code. Cloud Modelle für die schwierigen 20 Prozent, bei denen Qualität den Ausschlag gibt. Wer den Weg von Lovable oder einem reinen Cloud Stack hin zu lokal gehen will, sollte das mit klarem Plan tun. Wir helfen bei dem Übergang als Vibe Coding Berater, retten Vibe Coding Projekte, die mit der falschen Tool Wahl gestartet sind, und unterstützen bei Lovable Migrationen hin zu sauberer Infrastruktur.

Die zweite ehrliche Grenze: Hardware Investition. Eine RTX 4090 oder ein MacBook Pro M3 Max kostet mehrere tausend Euro. Wer pro Monat unter 100 Euro für Cloud APIs ausgibt, hat eine lange Amortisationszeit. Wer 300 Euro plus pro Monat zahlt und das langfristig tut, rechnet die lokale Hardware in Monaten ab. Beides ist legitim. Wir helfen bei der Einordnung, wann sich der lokale Weg wirklich rechnet.

Small models are not just shitty versions of large models.

Jeffrey Morgan, Co-Founder und CEO, Ollama – Small Data SF Conference (24. September 2024)

Qwen3-Coder – Lokales Vibe Coding ohne API-Kosten

Qwen3-Coder: Open-Weight Coding Agent, 70,6% SWE-bench, 256K Kontext, läuft lokal via Ollama. Integration mit OpenCode und Claude Code – ohne API-Kosten.

Mehr erfahren

NCA Erfahrung mit dem lokalen Ollama Stack

Bei Never Code Alone betreiben wir unseren lokalen KI Stack seit Mitte 2024 produktiv. Die Konstellation Mai 2026: Ollama als Runtime auf eigenen Servern, Qwen und Llama als Default Modelle, ergänzt durch Gemini, GLM 5 und MiniMax für spezifische Workloads. Modelle wie Claude Code und OpenCode nutzen wir als Coding Agents auf diesem Stack.

Was wir in Beratungsprojekten regelmäßig sehen: Teams setzen lokale Modelle ohne klare Hardware Strategie auf. Folge: Schlechte Erfahrung, weil die Maschine zu klein war oder das Modell für den Use Case nicht passt. Wir helfen bei der Vibe Coding Beratung mit der konkreten Modell und Hardware Auswahl, bei Vibe Coding Best Practices für Teams, und bei der Migration von Cloud APIs zu lokal mit klarem Plan. Wenn ein Projekt schiefläuft, helfen wir auch Vibe Coding Projekte zu retten.

Für sensible Workloads, bei denen sogar das eigene Rechenzentrum keine Option ist, arbeiten wir mit gehosteter Inferenz über Conversis Duisburg als Enterprise Option für regulierte Branchen. Default bleibt bei uns Ollama direkt auf eigenen Servern in Deutschland.

CYPRESS.IO Ambassador und IT Consultant für QA Engenieering und Qualität in PHP Projekten.

NCA Vibe Coding Consulting

Roland Golla ist Entwickler aus Leidenschaft – seit über 20 Jahren. Er hat hunderte Projekte begleitet, von Legacy-Refactoring bis KI-Integration. Bei Vibe Coding verbindet er das Beste aus beiden Welten: Die Geschwindigkeit von KI-generiertem Code mit der Qualität professioneller Softwareentwicklung. Kein Bullshit, keine Agentur-Floskeln – direkte Hilfe von jemandem, der selbst täglich im Code steckt.

E-Mail Kontakt

Häufige Fragen zu Ollama Modellen für AI und Vibe Coding

Die folgenden Fragen erreichen uns regelmäßig in Beratungsprojekten rund um lokale KI Modelle, Ollama Setup und Vibe Coding mit Open Weight Stack.

Welches Ollama Modell ist 2026 das beste für Vibe Coding?

Qwen3 Coder 30B A3B ist die aktuelle Standardempfehlung für lokales Vibe Coding. RL trainiert auf SWE Bench, MoE mit nur 3,3 Milliarden aktiven Parametern, 256K Kontext nativ. Läuft praktikabel ab 16 GB VRAM. Für Dense Architektur ist Qwen 3.6 27B mit 77,2 Prozent SWE Bench die beste Alternative.

Was ist der Unterschied zwischen Ollama und Cloud KI 2026?

Ollama läuft komplett lokal auf eigener Hardware. Keine API Kosten, keine Datenübertragung an externe Server, keine Internet Abhängigkeit. Cloud KI wie Claude oder GPT bietet stärkere Modelle und keine Hardware Investition. In der Praxis lohnt sich ein Hybrid Setup je nach Sensibilität und Komplexität der Aufgabe.

Wieviel VRAM brauche ich 2026 für lokales Vibe Coding?

Für ernsthafte Coding Modelle in der 30B Klasse braucht es 16 bis 24 GB VRAM. Eine RTX 4090 oder ein MacBook Pro M3 Max mit 32 GB Unified Memory ist der Sweet Spot. Mit 8 bis 12 GB sind kleinere Modelle wie Qwen2.5 Coder 7B oder DeepSeek R1 14B möglich, aber für komplexe Aufgaben spürbar limitiert.

Welches Modell ist 2026 am besten für Reasoning und Debugging?

DeepSeek R1 ist das Reasoning Modell der Wahl. Es zeigt seinen Chain of Thought vor der Antwort und ist besonders stark bei Architektur Diskussionen und komplexem Debugging. Die 14B Distillation läuft auf 12 GB VRAM, die 32B Variante auf etwa 20 GB.

Ist Qwen3 Coder 2026 wirklich besser als Qwen2.5 Coder?

Für agentic Workflows ja. Qwen3 Coder wurde mit Reinforcement Learning auf SWE Bench trainiert und unterstützt natives Tool Calling. Qwen2.5 Coder 32B hat zwar starke HumanEval Werte, ist aber für mehrstufige Aufgaben nicht so optimiert. Wer Multi File Edits oder Test Generation macht, nimmt Qwen3 Coder.

Was ist Mixture of Experts und warum ist das wichtig?

MoE Modelle aktivieren pro Token nur einen Teil ihrer Parameter. Qwen3 Coder 30B nutzt zum Beispiel nur 3,3 Milliarden von 30 Milliarden. Das Resultat ist Qualität eines großen Modells bei Speed und Memory Footprint eines kleinen. 2026 ist MoE der Architekturstandard für effiziente lokale Modelle.

Kann Ollama Claude oder GPT 5 ersetzen?

Nein, nicht vollständig. Für einen relevanten Anteil alltäglicher Coding Aufgaben sind lokale Modelle gut genug. Für die anspruchsvollsten 20 Prozent der Aufgaben sind Cloud Modelle wie Claude Opus oder GPT 5 noch deutlich überlegen. In Beratungsprojekten empfehlen wir meist ein Hybrid Setup.

Wie integriere ich Ollama in VS Code?

Mit der Continue.dev Extension. In config.json einen Eintrag mit provider ollama, model qwen3-coder:30b und apiBase http://localhost:11434 anlegen. Continue.dev unterstützt Autocomplete und Chat. Für Terminal Workflows eignet sich OpenCode oder Crush.

Ist Ollama DSGVO konform?

Ollama selbst läuft lokal und überträgt keine Daten an Dritte. Das macht es für sensible Codebases attraktiv. Wer die Hardware nicht selbst betreiben will, kann gehostete Inferenz über deutsche Anbieter nutzen. NCA arbeitet dafür mit Conversis Duisburg als Enterprise Option für regulierte Branchen.

Welche Lizenz haben die wichtigsten Ollama Modelle?

Qwen3 Coder und Qwen 3.6 stehen unter Apache 2.0. Llama 4 Scout unter Llama Community License. DeepSeek R1 und Kimi K2.6 unter MIT bzw. Modified MIT. Gemma 4 unter Apache 2.0. Apache 2.0 und MIT sind die unkompliziertesten Lizenzen für kommerzielle Nutzung.

Was ist der Unterschied zwischen GLM 5 und Kimi K2.6?

GLM 5 von Zhipu AI ist ein Allrounder mit starken Coding und Agentic Werten, lokal hostbar in den kleineren Varianten. Kimi K2.6 von Moonshot AI ist ein Frontier Coding Modell mit etwa 1 Billion Gesamtparametern, das für ernsthafte lokale Nutzung sehr starke Hardware oder Cloud Hosting braucht.

Welche Hardware lohnt sich für einen lokalen KI Stack?

Für einzelne Entwickler ein MacBook Pro M3 Max oder M4 mit 32 bis 64 GB Unified Memory. Für Teams ein Server mit RTX 4090 oder zwei RTX 3090 für größere Modelle. Apple Silicon ist energieeffizient und leise, NVIDIA bietet die schnellste Inference. Welche Konstellation für ein Projekt passt, klären wir in der Vibe Coding Beratung.

Warum verschwindet CodeLlama aus den Empfehlungen?

CodeLlama wurde 2023 stark genutzt, ist 2026 aber von den neueren Modellen überholt. Qwen3 Coder, Devstral und Codestral liefern auf ähnlicher Hardware deutlich bessere Resultate. Für neue Setups gibt es keinen Grund mehr, mit CodeLlama zu starten.

Wie schnell ist die Inferenz auf einer RTX 4090?

Qwen2.5 Coder 32B in Q4 erreicht etwa 35 bis 50 Tokens pro Sekunde auf einer RTX 4090. Qwen3 Coder 30B A3B liegt durch die MoE Architektur höher bei 60 bis 90 Tokens pro Sekunde. Apple Silicon M3 Max kommt in den gleichen Modellen auf 25 bis 40 Tokens pro Sekunde.

Was ist mit Long Context und Repository Scale Coding?

Llama 4 Scout mit 10 Millionen Token Kontext ist die erste Wahl für Aufgaben, bei denen ganze Repositories in den Kontext passen sollen. Qwen3 Coder unterstützt 256K nativ und 1 Million mit Yarn Extrapolation. GLM 5 bringt 128K plus über DeepSeek Sparse Attention mit.