Aktualisiert:: 4. Juni 2026
Autor:: Roland Golla

Grünes isometrisches Browserfenster mit MiniMax M3 Schriftzug und Rakete

Was ist MiniMax M3?

MiniMax M3 ist das am 1. Juni 2026 veröffentlichte Frontier Modell des chinesischen KI Unternehmens MiniMax, das frontier Coding, ein Kontextfenster von bis zu 1 Million Token und native Multimodalität in einer einzigen Architektur vereint. Möglich macht das die neue, proprietäre MiniMax Sparse Attention (MSA). Die API ist seit dem Launch live, Open Weights und der Technical Report folgen laut MiniMax innerhalb von rund zehn Tagen auf Hugging Face und GitHub.

Architektonisch ist M3 ein Mixture of Experts Modell mit 229,9 Milliarden Gesamtparametern, von denen pro Token nur 9,8 Milliarden über 256 fein granulierte Experts aktiv sind. Der entscheidende Schritt gegenüber der Vorgängerreihe M2 ist nicht die Größe, sondern die Attention: Während M2, M2.1, M2.5 und M2.7 bewusst auf klassischer Full Attention liefen, kehrt M3 zu Sparse Attention zurück und macht damit lange Kontexte wirtschaftlich nutzbar.

Für europäische Teams ist die angekündigte Open Weight Verfügbarkeit der zentrale Punkt: Erst mit frei verfügbaren Gewichten lässt sich M3 datenschutzkonform auf eigener Infrastruktur betreiben. Bis dahin gilt für die MiniMax API dieselbe Vorsicht wie bei den Vorgängermodellen. Wer bereits heute auf der stabilen Vorgängergeneration aufsetzen will, findet die Details auf unserer Seite zu MiniMax M2.5.

MiniMax M3 mit NCA: Schnelle Einordnung vom Experten

Never Code Alone arbeitet täglich mit lokalen und offenen KI Modellen und integriert sie in echte Entwicklungsworkflows. MiniMax läuft bei uns als eines der Modelle im Stack neben Qwen und Llama über Ollama. Genau deshalb können wir ein frisch gelauncht Modell wie M3 nüchtern bewerten, statt Marketingzahlen zu wiederholen: Welche Benchmarks sind Herstellerangaben, wo lohnt der Umstieg, wo bleibt die Vorgängergeneration die robustere Wahl.

Konkret helfen wir Teams dabei, M3 sinnvoll einzuordnen und produktiv zu machen: in der Vibe Coding Beratung klären wir den passenden Modell Mix, über unsere Ollama Einbindung lokaler Modelle bringen wir offene Gewichte DSGVO konform auf eigene Server, und beim Thema KI Modell ohne US Anbieter wählen vergleichen wir M3 mit Alternativen wie GLM-5 und Qwen3 Coder im konkreten Use Case.

Lass uns sprechen

Finde das passende Angebot für dein Projekt

🤖

Hey! Ich bin CodeBot. Lass uns herausfinden, wie wir dein Projekt zum Fliegen bringen.

Was soll entstehen?

Inhaltsverzeichnis

MSA: Wie MiniMax Sparse Attention funktioniert

Klassische Full Attention lässt jeden Token im Kontext jeden anderen Token betrachten. Das ist präzise, aber teuer: Verdoppelt sich der Kontext, vervierfacht sich grob der Rechenaufwand. Genau deshalb waren sehr lange Kontextfenster bisher langsam und kostspielig. MiniMax Sparse Attention (MSA) bricht mit diesem Prinzip.

MSA arbeitet zweistufig: Ein leichtgewichtiger Index Branch scannt die eingehenden Token und wählt aus, welche Blöcke des Key Value Cache überhaupt relevant sind. Erst danach läuft die teure Attention Berechnung, und zwar nur auf dieser Auswahl. Als Basis dient Grouped Query Attention, die Blockselektion erfolgt auf den echten, unkomprimierten Key Values statt auf einer komprimierten Repräsentation. Das Ergebnis ist sub quadratische Komplexität bei erhaltener Qualität.

Interessant ist die Vorgeschichte: MiniMax hatte effiziente Attention in der M2 Generation bewusst verworfen, weil sie damals noch nicht produktionsreif war. M3 nimmt jetzt nicht den linearen Weg zurück, sondern die Route Softmax Ausdrucksstärke plus Top k Blockselektion. Laut MiniMax bringt das bei 1 Million Token Kontext über 9x schnelleres Prefill und über 15x schnelleres Decoding gegenüber der Vorgängergeneration.

1 Million Token Kontext: Was damit möglich wird

Die M3 API unterstützt laut MiniMax ein Kontextfenster von bis zu 1 Million Token, mit einem garantierten Minimum von 512.000 Token. Dieser Umfang ist kein Selbstzweck, sondern die Infrastruktur für Aufgaben, die vorher unwirtschaftlich waren.

Drei Bereiche profitieren besonders:

Langlaufende Agent Aufgaben: Ein Agent kann eine komplette Codebase, lange Toolketten und Zwischenergebnisse im Kontext halten, ohne ständig Information zu verlieren.
Coding über große Repositories: Statt einzelner Dateien lässt sich ein größerer Projektkontext am Stück verarbeiten.
Langes Videoverständnis: Durch die native Multimodalität kann M3 lange visuelle Sequenzen analysieren.

Entscheidend ist die Wirtschaftlichkeit: Ein großes Kontextfenster nützt nur, wenn man es sich leisten kann zu füllen. Genau hier setzt MSA an, indem es die Kosten pro Token bei langem Kontext drastisch senkt.

Benchmarks von MiniMax M3: was der Hersteller nennt

MiniMax positioniert M3 auf Augenhöhe mit den führenden proprietären Modellen. Die genannten Werte stammen bislang vom Hersteller selbst, ein unabhängig nachprüfbarer Technical Report ist angekündigt, aber zum Launch noch nicht veröffentlicht. Wir kennzeichnen die Zahlen daher klar als Herstellerangaben.

Laut MiniMax erreicht M3 unter anderem:

59,0 Prozent auf SWE-Bench Pro, womit M3 nach Herstellerangabe GPT-5.5 und Gemini 3.1 Pro auf diesem Benchmark übertrifft
66,0 Prozent auf Terminal Bench 2.1
74,2 Prozent auf MCP Atlas
34,8 Prozent auf SWE-fficiency und 28,8 Prozent auf KernelBench Hard

Unsere Einordnung: Benchmarks zum Launch sind ein Startsignal, kein Beweis. Reproduzierbare Ergebnisse entstehen erst, wenn die Gewichte verfügbar sind und unabhängige Teams unter eigenen Bedingungen testen. Wer auf M3 setzen will, sollte die eigenen Aufgaben gegen die Vorgängergeneration und gegen Alternativen messen, statt sich auf Schlagzeilen zu verlassen.

Kosten: Frontier Leistung zum Bruchteil des Preises

Neben dem Kontextfenster ist der Preis das zweite große Argument für M3. MiniMax positioniert das Modell deutlich unter den führenden proprietären Anbietern aus den USA: Berichten zufolge liegt M3 bei nur einem Bruchteil der Kosten vergleichbarer westlicher Modelle. Möglich macht das die effiziente MSA Architektur, die lange Kontexte erst wirtschaftlich nutzbar macht, kombiniert mit dem schlanken Mixture of Experts Aufbau, bei dem pro Token nur ein Bruchteil der Parameter aktiv ist.

Den größten Kostenhebel haben Teams aber selbst in der Hand: Sobald die Open Weights verfügbar sind, fallen beim lokalen Betrieb auf eigener Infrastruktur gar keine Token Kosten mehr an. Über unsere Ollama Einbindung lokaler Modelle lässt sich M3 dann ohne laufende API Gebühren und DSGVO konform betreiben. Welche Variante im konkreten Fall günstiger ist, hängt vom Volumen ab, das klären wir in der Vibe Coding Beratung anhand der echten Last.

Eigenschaft	MiniMax M2.5	MiniMax M3
Release	12. Februar 2026	1. Juni 2026
Attention	Full Attention	MiniMax Sparse Attention (MSA)
Kontextfenster	Standard Kontext	bis zu 1 Million Token
Modalität	Text	nativ multimodal, Bild und Video
Architektur	MoE, 230B gesamt	MoE, 229,9B gesamt, 9,8B aktiv
Open Weights	verfügbar	angekündigt, folgt nach Launch

Native Multimodalität: Bild und Video von Grund auf

M3 ist nicht nachträglich um eine Bildfunktion erweitert worden, sondern laut MiniMax von Grund auf multimodal trainiert. Die Datenpipeline wurde neu aufgebaut, um Pretraining Daten auf eine sehr große Skala zu bringen, wobei textuelle und visuelle Bedeutungsräume von Beginn an gemeinsam ausgerichtet wurden.

Praktisch heißt das: M3 versteht Bild und Video als gleichwertige Eingabe neben Text und kann nach Herstellerangabe auch einen Desktop bedienen. In Kombination mit dem 1 Million Token Kontext eröffnet das Anwendungsfälle, die ein reines Textmodell nicht abdeckt, etwa die Analyse langer Bildschirmaufnahmen oder das Arbeiten mit visuell dokumentierten Workflows.

DSGVO, Open Weights und lokaler Betrieb

Für deutsche und europäische Teams ist die Lizenz- und Betriebsfrage wichtiger als jeder Benchmark. M3 ist über die MiniMax API, das Agent Produkt MiniMax Code und Token Pläne sofort nutzbar. Bei API Nutzung über MiniMax Server gelten dieselben datenschutzrechtlichen Unsicherheiten wie bei den Vorgängermodellen: Daten verlassen den eigenen Verantwortungsbereich.

Der eigentliche Hebel sind die angekündigten Open Weights. Sobald die Gewichte auf Hugging Face und GitHub liegen, lässt sich M3 auf eigener Infrastruktur betreiben, fein tunen und tief in eigene Systeme einbetten. Damit entfällt das Risiko des Datenabflusses über eine öffentliche API. Welche Lizenz konkret gilt, ist zum Launch noch offen, die Vorgängermodelle hatten teils eine Branding Pflicht oder Einschränkungen bei der kommerziellen Nutzung.

Unsere Empfehlung für regulierte Umgebungen: M3 erst dann produktiv einplanen, wenn Gewichte und Lizenz geklärt sind, und den lokalen Betrieb über einen Stack wie unsere Ollama Einbindung lokaler Modelle vorbereiten. Default ist bei uns der direkte lokale Betrieb über Ollama, bei Bedarf ergänzt um gehostete Inferenz über unseren Partner Conversis für regulierte Branchen.

Stärken und Schwächen: kritische Einordnung

Stärken: Das 1 Million Token Kontextfenster in Kombination mit der effizienten MSA Architektur ist ein echtes Alleinstellungsmerkmal, weil es lange Kontexte erstmals wirtschaftlich macht. Die native Multimodalität und die angekündigten Open Weights sprechen für Teams, die unabhängig von US Anbietern bleiben wollen. Die agentischen Fähigkeiten zielen klar auf reale Entwicklungsworkflows.

Schwächen und offene Punkte: Zum Launch sind die Benchmarks reine Herstellerangaben, Gewichte und Technical Report fehlen noch. Die Lizenz ist ungeklärt, was kommerzielle Planung erschwert. Die Vorgängerreihe M2 hatte zudem dokumentierte Probleme mit Reward Hacking, also Modellen, die Tests manipulierten statt Fehler zu beheben. Ob M3 das sauber gelöst hat, lässt sich erst mit unabhängigen Tests beurteilen.

Fazit für die Praxis: M3 ist ein hochinteressanter Kandidat für langlaufende Agenten und große Codebases, aber zum jetzigen Zeitpunkt eher zum Evaluieren als zum blinden Produktiv-Setzen. Wer heute Stabilität braucht, fährt mit bewährten Modellen wie GLM-5, Qwen3 Coder oder der MiniMax M2.5 Generation oft besser, bis M3 sich unabhängig bewährt hat.

Warum die Rückkehr zu Sparse Attention ein Wendepunkt ist

Um die Bedeutung von M3 einzuordnen, lohnt ein Blick zurück: MiniMax hatte effiziente Attention für die M2 Generation bewusst verworfen und auf klassische Full Attention gesetzt. In einem eigenen Engineering Beitrag begründete das Team das damit, dass effiziente Attention damals noch nicht produktionsreif war. Genau diese Zurückhaltung macht den jetzigen Schritt aussagekräftig.

Mit M3 kehrt Sparse Attention zurück, und zwar nicht als Experiment, sondern als tragende Architektur eines ausgelieferten Flaggschiff Modells. Das Statement des Head of Engineering bringt die drei Säulen auf den Punkt, die M3 in einer einzigen Architektur vereint:

M3 brings sparse attention + 1M context + multimodality.

Skyler Miao, Head of Engineering, MiniMax – X (3. Juni 2026)

MiniMax M2.5: Frontier-Coding zum Bruchteil der Kosten

MiniMax M2.5 und M3: Open Weight MoE Modelle aus China mit Sparse Attention, 1 Million Token Kontext, Benchmarks, API Zugang und DSGVO Analyse

Mehr erfahren

CYPRESS.IO Ambassador und IT Consultant für QA Engenieering und Qualität in PHP Projekten.

NCA Vibe Coding Consulting

Roland Golla ist Entwickler aus Leidenschaft – seit über 20 Jahren. Er hat hunderte Projekte begleitet, von Legacy-Refactoring bis KI-Integration. Bei Vibe Coding verbindet er das Beste aus beiden Welten: Die Geschwindigkeit von KI-generiertem Code mit der Qualität professioneller Softwareentwicklung. Kein Bullshit, keine Agentur-Floskeln – direkte Hilfe von jemandem, der selbst täglich im Code steckt.

E-Mail Kontakt

Häufige Fragen zu MiniMax M3

Die wichtigsten Fragen zu MiniMax M3, seiner Architektur, dem Kontextfenster und der Nutzung in der Praxis, kurz und direkt beantwortet.

Was ist MiniMax M3 und wann wurde es 2026 veröffentlicht?

MiniMax M3 ist das am 1. Juni 2026 veröffentlichte Frontier Modell von MiniMax. Es kombiniert frontier Coding, ein Kontextfenster von bis zu 1 Million Token und native Multimodalität in einer Architektur. Die API ist seit Launch live, Open Weights und Technical Report folgen laut Hersteller innerhalb von rund zehn Tagen.

Was ist MiniMax Sparse Attention MSA 2026?

MSA ist die neue Attention Architektur in M3. Ein leichtgewichtiger Index Branch wählt zuerst die relevanten Blöcke des Key Value Cache aus, danach läuft die Attention nur auf dieser Auswahl. Das senkt laut MiniMax den Rechenaufwand pro Token bei 1 Million Token Kontext auf ein Zwanzigstel der Vorgängergeneration.

Wie groß ist das Kontextfenster von MiniMax M3 2026?

M3 unterstützt laut Hersteller bis zu 1 Million Token Kontext, mit garantierten mindestens 512.000 Token über die API. Damit eignet sich das Modell für langlaufende Agent Aufgaben, Coding über große Repositories und langes Videoverständnis. Möglich macht das die effiziente MSA Architektur.

Was ist der Unterschied zwischen MiniMax M2.5 und M3 2026?

Der zentrale Unterschied ist die Attention Architektur. M2.5 lief auf Full Attention, M3 nutzt MiniMax Sparse Attention und erreicht damit ein Kontextfenster von bis zu 1 Million Token. Zusätzlich ist M3 nativ multimodal und versteht Bild und Video, während M2.5 ein reines Textmodell ist.

Ist MiniMax M3 Open Source und DSGVO konform nutzbar 2026?

MiniMax hat Open Weights für M3 auf Hugging Face und GitHub angekündigt, zum Launch sind sie aber noch nicht verfügbar und die Lizenz ist offen. Datenschutzkonform wird M3 vor allem über den lokalen Betrieb auf eigener Infrastruktur, sobald die Gewichte vorliegen. Bei der API gelten dieselben Unsicherheiten wie bei den Vorgängermodellen.

Wie sind die Benchmarks von MiniMax M3 einzuordnen?

MiniMax nennt unter anderem 59,0 Prozent auf SWE-Bench Pro und positioniert M3 damit vor GPT-5.5 und Gemini 3.1 Pro. Diese Werte sind bislang Herstellerangaben. Ein unabhängig nachprüfbarer Technical Report fehlt zum Launch noch, daher sollten Teams die eigenen Aufgaben selbst gegen Alternativen messen.

Ist MiniMax M3 multimodal?

Ja. M3 ist laut MiniMax von Grund auf multimodal trainiert und versteht Bild und Video als gleichwertige Eingabe neben Text. Die Datenpipeline wurde dafür neu aufgebaut, sodass textuelle und visuelle Bedeutungsräume von Beginn an gemeinsam ausgerichtet wurden. Das Modell kann nach Herstellerangabe auch einen Desktop bedienen.

Wie kann man MiniMax M3 nutzen?

M3 ist über die MiniMax API, das Agent Produkt MiniMax Code und Token Pläne sofort verfügbar. Für den datenschutzkonformen lokalen Betrieb sind die angekündigten Open Weights nötig, die sich dann über einen Stack wie Ollama auf eigener Infrastruktur betreiben lassen.

Lohnt sich der Umstieg von M2.5 auf M3?

Das hängt vom Use Case ab. Für langlaufende Agenten und sehr lange Kontexte ist M3 hochinteressant. Wer heute Stabilität braucht, fährt mit bewährten Modellen oft besser, bis M3 mit verfügbaren Gewichten unabhängig getestet wurde. NCA hilft Teams, diese Entscheidung im konkreten Projekt zu treffen.

Warum ist MiniMax M3 zur Sparse Attention zurückgekehrt?

MiniMax hatte effiziente Attention in der M2 Generation bewusst verworfen, weil sie damals nicht produktionsreif war. Mit M3 gilt das nicht mehr. Statt des linearen Wegs setzt M3 auf Softmax Ausdrucksstärke plus Top k Blockselektion und erreicht so sub quadratische Komplexität bei erhaltener Qualität.

Wie günstig ist MiniMax M3 im Vergleich zu proprietären Modellen?

MiniMax positioniert M3 deutlich unter den führenden proprietären Anbietern aus den USA, Berichten zufolge bei nur einem Bruchteil der Kosten vergleichbarer westlicher Modelle. Möglich macht das die effiziente MSA Architektur und der schlanke Mixture of Experts Aufbau. Den größten Hebel bietet der lokale Betrieb über Open Weights, der laufende API Kosten ganz vermeidet.

Beste Coder Modelle für lokale Nutzung 2026: Top 6 im Vergleich