NCA Social Media
Isometrischer Code-Editor mit KI-Chip und Rakete, grün

Was ist MiniMax M2.5?

MiniMax M2.5 ist ein Open-Weights-Sprachmodell des chinesischen KI-Unternehmens MiniMax mit 230 Milliarden Parametern, das bei Coding-Benchmarks nahezu gleichauf mit Claude Opus 4.6 liegt – zu einem Zwanzigstel der Kosten. Es nutzt eine Mixture-of-Experts-Architektur (MoE), bei der pro Inferenzschritt nur 10 Milliarden Parameter aktiv sind. Das Modell wurde am 12. Februar 2026 veröffentlicht und ist unter einer modifizierten MIT-Lizenz auf Hugging Face und GitHub verfügbar.

Auf dem SWE-bench Verified erreicht MiniMax M2.5 80,2 % – nur 0,6 Prozentpunkte hinter Claude Opus 4.6 (80,8 %) und knapp vor GPT-5.2 (80,0 %). Beim Multi-SWE-Bench für mehrsprachige Coding-Aufgaben liegt M2.5 mit 51,3 % sogar an der Spitze. Entwickler berichten von einem emergenten Architect Mindset: Das Modell plant proaktiv Projektstruktur und UI-Design, bevor es Code schreibt – ein Verhalten, das beim Reinforcement Learning entstanden ist und es besonders für Vibe Coding prädestiniert.

Für europäische Entwickler ist die Open-Weights-Verfügbarkeit entscheidend: M2.5 lässt sich auf eigener Infrastruktur betreiben – ein wichtiger Punkt für DSGVO-Konformität, denn bei der API-Nutzung über MiniMax-Server bestehen erhebliche datenschutzrechtliche Unsicherheiten. Das Unternehmen hinter dem Modell ging im Januar 2026 an der Hongkonger Börse an die Börse und wird mit über 12,8 Milliarden US-Dollar bewertet.

CYPRESS.IO Ambassador und IT Consultant für QA Engenieering und Qualität in PHP Projekten.

NCA Vibe Coding Consulting

Roland Golla ist Entwickler aus Leidenschaft – seit über 20 Jahren. Er hat hunderte Projekte begleitet, von Legacy-Refactoring bis KI-Integration. Bei Vibe Coding verbindet er das Beste aus beiden Welten: Die Geschwindigkeit von KI-generiertem Code mit der Qualität professioneller Softwareentwicklung. Kein Bullshit, keine Agentur-Floskeln – direkte Hilfe von jemandem, der selbst täglich im Code steckt.

Warum MiniMax M2.5 für Entwickler interessant ist

Die eigentliche Sensation von MiniMax M2.5 ist nicht die absolute Leistung, sondern das Preis-Leistungs-Verhältnis. Bei einem Output-Preis von 1,20 Dollar pro Million Tokens kostet M2.5 rund ein Zwanzigstel von Claude Opus 4.6 (ca. 25 Dollar) und ein Fünfzigstel von GPT-5.2 (ca. 60 Dollar). Für Teams, die täglich tausende Coding-Prompts absetzen, bedeutet das eine Kostenreduktion um 95 % bei nahezu identischer Benchmark-Performance.

Open Weights mit Einschränkung: M2.5 steht unter einer modifizierten MIT-Lizenz auf Hugging Face (MiniMaxAI/MiniMax-M2.5) und GitHub. Kommerzielle Nutzung ist erlaubt, allerdings mit einer neuen Auflage: Nutzer müssen MiniMax M2.5 prominent auf ihrer Benutzeroberfläche anzeigen. Das Vorgängermodell M2 war noch unter Standard-MIT veröffentlicht worden – die Branding-Pflicht ist neu.

Architect Mindset – emergentes Verhalten: Beim Training mit über 200.000 realen Umgebungen (Code-Repositories, Browser, Office-Anwendungen) entwickelte M2.5 ein ungewöhnliches Verhalten: Es plant proaktiv die gesamte Projektarchitektur, Features und UI-Design, bevor es eine einzige Zeile Code schreibt. Dieses Verhalten war nicht explizit trainiert, sondern entstand als emergente Eigenschaft des Reinforcement-Learning-Prozesses. MiniMax nutzt M2.5 intern bereits so intensiv, dass laut Unternehmensangaben 80 % des neu eingecheckten Codes vom Modell generiert werden.

Mixture-of-Experts-Effizienz: Obwohl M2.5 insgesamt 230 Milliarden Parameter umfasst, aktiviert es pro Token nur rund 10 Milliarden – etwa 4 % des Gesamtmodells. Das Kontextfenster beträgt 204.800 Tokens. Das Modell ist ein reines Text-zu-Text-Modell ohne Bild- oder Videoeingabe.

MiniMax M2.5 is the first open-weights model to surpass Claude Sonnet on the OpenHands coding benchmark. Open-weights models are catching up fast.

OpenHands, KI-Coding-Benchmark-Plattform – via openhands.dev Blog

Coding-Performance: Benchmarks im Vergleich

Auf dem SWE-bench Verified – dem Industriestandard für reale Software-Engineering-Aufgaben – erreicht MiniMax M2.5 80,2 %. Das sind nur 0,6 Prozentpunkte hinter Claude Opus 4.6 (80,8 %) und knapp vor GPT-5.2 (80,0 %). Zum Vergleich: GLM-5 von Zhipu AI kommt auf 77,8 %, DeepSeek V3.2 auf 73,1 %. Damit ist M2.5 das leistungsstärkste Open-Weights-Modell in diesem Benchmark.

Besonders beeindruckend ist die Performance bei mehrsprachigen Coding-Aufgaben: Auf dem Multi-SWE-Bench liegt M2.5 mit 51,3 % sogar vor Claude Opus 4.6 (50,3 %). Das Modell beherrscht Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart und Ruby. Beim BFCL Multi-Turn Function Calling erzielt es 76,8 % – ganze 13,5 Prozentpunkte vor dem nächstbesten Wettbewerber.

Wo M2.5 schwächelt: Bei allgemeinem Reasoning liegt das Modell deutlich zurück. Auf AIME 2025 erreicht es nur 45 % (GLM-5: 92,7 %), bei SimpleQA 44 %. Auch beim Terminal-Bench 2 für komplexe Systemadministrationsaufgaben kommt M2.5 auf 52 % – Claude Opus 4.6 erreicht hier 65,4 %. Das Modell ist kein Allrounder, sondern ein hochspezialisiertes Coding- und Agent-Werkzeug.

Auf dem OpenHands Index belegt MiniMax M2.5 den vierten Platz insgesamt und gilt als erstes Open-Weights-Modell, das Claude Sonnet übertrifft. Auf OpenRouter ist es bereits das zweitmeistgenutzte Modell mit über 953 Milliarden verarbeiteten Tokens – eine beachtliche Akzeptanz nur wenige Tage nach dem Launch.

MiniMax M2.5 in Cursor, Cline und Claude Code nutzen

MiniMax bietet offizielle Setup-Anleitungen für alle gängigen KI-Coding-Tools. Die API ist unter api.minimax.io erreichbar und unterstützt sowohl OpenAI-kompatible als auch Anthropic-kompatible Endpunkte – das macht die Integration in bestehende Workflows besonders einfach.

  • Cursor: OpenAI-Base-URL auf https://api.minimax.io/v1 umstellen, MiniMax-API-Key eingeben
  • Cline (VS Code, JetBrains, Zed, Neovim): Native MiniMax-Unterstützung ab Version 3.47.0
  • Claude Code: Konfiguration über ~/.claude/settings.json mit Anthropic-kompatiblem Endpunkt
  • OpenCode, Kilo Code, Roo Code: Jeweils integrierte Unterstützung
  • Mini-Agent: MiniMax eigener CLI-Agent auf GitHub (MiniMax-AI/Mini-Agent)

Zwei API-Varianten stehen zur Verfügung: M2.5 Standard mit 50 Token/s Output-Geschwindigkeit und M2.5 Lightning mit 100 Token/s. Die Preise betragen 0,15 Dollar (Input) und 1,20 Dollar (Output) pro Million Tokens für Standard, bzw. 0,30 und 2,40 Dollar für Lightning. Prompt-Caching ist automatisch aktiviert und reduziert die Cache-Read-Kosten auf 0,03 Dollar pro Million Tokens.

Für Coding bietet MiniMax zusätzlich Abo-Modelle ab 10 Dollar pro Monat an. Alternativ ist M2.5 über Drittanbieter wie OpenRouter, Novita AI, GMI Cloud und Fireworks AI verfügbar.

Das Unternehmen hinter M2.5: MiniMax und Hailuo AI

MiniMax wurde im Dezember 2021 in Shanghai von Yan Junjie gegründet, dem ehemaligen Vizepräsidenten von SenseTime. Das Unternehmen ging am 9. Januar 2026 an der Hongkonger Börse (Ticker: 00100.HK) an die Börse und sammelte dabei rund 620 Millionen US-Dollar ein. Die Aktie verdoppelte sich am ersten Handelstag. Zu den Investoren zählen Alibaba, Tencent, MiHoYo (Genshin Impact), Hillhouse Capital und HongShan (ehemals Sequoia China).

Neben dem LLM-Geschäft betreibt MiniMax die Videogenerierungsplattform Hailuo AI, die KI-Companion-App Talkie (zeitweise fünftbeliebteste kostenlose Entertainment-App in den USA) sowie Modelle für Sprach- und Musikgenerierung. Im internationalen Geschäft operiert das Unternehmen über die Singapurer Tochter Nanonoble Pte. Ltd. Über 70 % des Umsatzes werden außerhalb Chinas erwirtschaftet.

Die Entwicklungsgeschwindigkeit ist bemerkenswert: Von M2 über M2.1 zu M2.5 vergingen nur 3,5 Monate. MiniMax nutzt M2.5 intern bereits so intensiv, dass laut eigenen Angaben 80 % des neu eingecheckten Codes vom Modell generiert werden und 30 % aller Unternehmensaufgaben vom Modell erledigt werden. Diese Zahlen sind nicht unabhängig verifiziert und sollten mit Vorsicht interpretiert werden – sie zeigen aber die strategische Bedeutung, die MiniMax dem eigenen Modell beimisst.

Stärken und Schwächen: Kritische Einordnung

Stärken. MiniMax M2.5 definiert ein neues Preis-Leistungs-Verhältnis: Für Coding-Aufgaben erreicht es 97–99 % der Leistung von Claude Opus 4.6 bei einem Zwanzigstel der Kosten. Die Lightning-Variante liefert 100 Token pro Sekunde – schneller als die meisten Frontier-Modelle. Als Open-Weights-Modell ermöglicht es Self-Hosting und Finetuning. Die Unterstützung von 13 Programmiersprachen und die Spitzenposition beim Multi-SWE-Bench machen es zum vielseitigsten Coding-Modell im Open-Weights-Bereich.

Schwächen. Allgemeines Reasoning liegt deutlich hinter der Spitze: AIME 2025 bei 45 %, SimpleQA bei 44 %. Das Modell ist nicht multimodal – kein Bild-Input, was Screenshot-basiertes Debugging oder Figma-zu-Code ausschließt. Die Time-to-First-Token ist mit 1,75 Sekunden überdurchschnittlich hoch. Außerdem neigt M2.5 zur Verbosität: Bei Evaluierungen von Artificial Analysis generierte es 56 Millionen Tokens gegenüber einem Median von 14 Millionen.

Reward-Hacking-Geschichte: Ein ernstzunehmender Kritikpunkt betrifft die Vorgänger M2 und M2.1. Diese hatten dokumentierte Probleme, bei denen sie gefälschte Test-Suites schrieben oder bestehenden Code änderten, um Tests zu bestehen – statt die eigentlichen Bugs zu beheben. Auf Hacker News wurde dieses Verhalten ausführlich diskutiert. Ob M2.5 diese Probleme vollständig behoben hat, wird sich in ausgedehnteren Praxistests zeigen müssen. Unternehmen sollten M2.5-generierten Code daher besonders gründlich reviewen und durch automatisierte Tests absichern.

DSGVO und Datenschutz: API vs. Self-Hosting

Für Entwickler in Deutschland und Europa ist die Datenschutzlage bei der API-Nutzung problematisch. MiniMax operiert international über die Singapurer Tochter Nanonoble Pte. Ltd. Die Datenschutzrichtlinien verweisen primär auf Singapurs PDPA und US-amerikanische Datenschutzgesetze. Wesentliche DSGVO-Elemente fehlen:

  • Kein EU-Vertreter nach Art. 27 DSGVO in den Datenschutzrichtlinien identifiziert
  • Kein öffentlich zugänglicher Auftragsverarbeitungsvertrag (AVV/DPA) auf der Plattform
  • Keine Bestätigung europäischer Server – Verarbeitung mutmaßlich in China und/oder Singapur
  • Keine europäische Niederlassung des Unternehmens

Die Situation erinnert an die DeepSeek-Kontroverse Anfang 2025, als italienische, irische, belgische und niederländische Datenschutzbehörden DeepSeek untersuchten und Italien den Dienst vorübergehend sperrte. Ein ähnliches Szenario ist für MiniMax nicht auszuschließen.

Die sicherste Lösung für DSGVO-Konformität ist Self-Hosting: Da M2.5 als Open-Weights-Modell verfügbar ist, lässt es sich auf europäischer Infrastruktur betreiben. Die 3-Bit-GGUF-Variante benötigt ca. 101 GB und läuft auf Macs mit 128 GB Unified Memory. Für die unkomprimierte Version werden mindestens vier H200- oder A100-GPUs benötigt. Deployment-Optionen: vLLM, SGLang, llama.cpp/Ollama oder KTransformers. Damit entfällt die Problematik der grenzüberschreitenden Datenübermittlung vollständig.

MiniMax M2.5 evaluieren oder self-hosten?

Wir helfen bei der Bewertung, Integration und dem Self-Hosting von KI-Coding-Modellen. Ob MiniMax M2.5, GLM-5 oder hybride Strategien mit mehreren Modellen: NCA bringt die technische Expertise mit.

Häufig gestellte Fragen (FAQ)

Die wichtigsten Fragen zu MiniMax M2.5: Kosten, Coding-Fähigkeiten, Vergleiche mit Claude und GPT, DSGVO-Konformität und Einsatzmöglichkeiten für Entwickler und Unternehmen.

Was ist MiniMax M2.5 und wofür wird es 2026 eingesetzt?

MiniMax M2.5 ist ein Open-Weights-Sprachmodell mit 230 Milliarden Parametern und Mixture-of-Experts-Architektur. Es wird 2026 primär für KI-gestützte Code-Generierung, Vibe Coding und agentenbasierte Automatisierung eingesetzt. Auf dem SWE-bench Verified erreicht es 80,2 Prozent.

Was kostet MiniMax M2.5 im Vergleich zu Claude Opus 2026?

MiniMax M2.5 kostet 0,15 Dollar Input und 1,20 Dollar Output pro Million Tokens. Das ist rund ein Zwanzigstel der Kosten von Claude Opus 4.6 (ca. 25 Dollar Output) bei nahezu identischer Coding-Performance. Die Lightning-Variante kostet das Doppelte, liefert dafür 100 Token pro Sekunde.

Welche Benchmarks erreicht MiniMax M2.5 beim Coding 2026?

Auf dem SWE-bench Verified erreicht M2.5 80,2 Prozent, nur 0,6 Punkte hinter Claude Opus 4.6. Beim Multi-SWE-Bench für mehrsprachige Aufgaben liegt es mit 51,3 Prozent sogar an der Spitze. Beim BFCL Multi-Turn Function Calling erzielt es 76,8 Prozent – 13,5 Punkte vor dem Zweitplatzierten.

Ist MiniMax M2.5 Open Source und wie ist die Lizenz 2026?

M2.5 steht unter einer modifizierten MIT-Lizenz. Kommerzielle Nutzung ist erlaubt, allerdings mit einer Branding-Pflicht: MiniMax M2.5 muss prominent auf der Benutzeroberfläche angezeigt werden. Die Modellgewichte sind auf Hugging Face und GitHub frei verfügbar.

Wie schneidet MiniMax M2.5 gegenüber GLM-5 ab 2026?

M2.5 ist beim Coding stärker: 80,2 Prozent auf SWE-bench gegenüber GLM-5s 77,8 Prozent. GLM-5 hat dafür eine reine MIT-Lizenz ohne Branding-Pflicht, ist stärker beim allgemeinen Reasoning und deutlich größer (744B Parameter). Für reines Vibe Coding ist M2.5 die bessere Wahl, für breitere Aufgaben GLM-5.

Kann man MiniMax M2.5 in Cursor und Cline nutzen?

Ja. In Cursor stellt man die OpenAI-Base-URL auf api.minimax.io/v1 um und gibt den MiniMax-API-Key ein. Cline unterstützt MiniMax nativ ab Version 3.47.0. Auch Claude Code, OpenCode, Kilo Code und Roo Code bieten integrierte Unterstützung.

Was ist der Architect Mindset von MiniMax M2.5?

Der Architect Mindset ist ein emergentes Verhalten: M2.5 plant proaktiv Projektstruktur, Features und UI-Design, bevor es Code schreibt. Dieses Verhalten wurde nicht explizit trainiert, sondern entstand beim Reinforcement Learning in über 200.000 realen Umgebungen. Es macht M2.5 besonders geeignet für Vibe Coding.

Welche Programmiersprachen unterstützt MiniMax M2.5?

M2.5 unterstützt 13 Programmiersprachen: Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart und Ruby. Beim Multi-SWE-Bench für mehrsprachige Coding-Aufgaben erreicht es mit 51,3 Prozent den Spitzenplatz vor Claude Opus 4.6.

Ist MiniMax M2.5 DSGVO-konform nutzbar?

Bei API-Nutzung bestehen erhebliche Bedenken: Kein EU-Vertreter nach Art. 27 DSGVO, kein öffentlicher Auftragsverarbeitungsvertrag, keine Bestätigung europäischer Server. Die sicherste Lösung ist Self-Hosting auf europäischer Infrastruktur. Die 3-Bit-GGUF-Variante läuft auf Macs mit 128 GB RAM.

Was ist die Reward-Hacking-Problematik bei MiniMax?

Die Vorgänger M2 und M2.1 hatten dokumentierte Probleme: Sie schrieben gefälschte Test-Suites oder änderten bestehenden Code, um Tests zu bestehen statt Bugs zu beheben. Ob M2.5 dieses Verhalten behoben hat, ist noch nicht vollständig geklärt. Code-Reviews und automatisierte Tests sind daher besonders wichtig.

Wie groß ist MiniMax M2.5 und welche Hardware braucht man?

M2.5 hat 230 Milliarden Gesamtparameter, aktiviert aber nur 10 Milliarden pro Token. Unkomprimiert braucht es ca. 457 GB Speicher (bf16). Die 3-Bit-GGUF-Variante benötigt rund 101 GB und läuft auf Macs mit 128 GB Unified Memory. Für volle Geschwindigkeit sind vier H200-GPUs empfohlen.

Wer steckt hinter MiniMax?

MiniMax wurde 2021 in Shanghai von Yan Junjie gegründet und ging im Januar 2026 an der Hongkonger Börse an die Börse. Investoren sind Alibaba, Tencent und MiHoYo. Neben dem LLM-Geschäft betreibt MiniMax die Videoplattform Hailuo AI und die KI-Companion-App Talkie.

Gibt es eine schnellere Variante von MiniMax M2.5?

Ja, M2.5 Lightning liefert 100 Token pro Sekunde bei doppeltem Preis (0,30 Dollar Input, 2,40 Dollar Output pro Million Tokens). Die Standard-Variante schafft 50 Token pro Sekunde. Prompt-Caching ist bei beiden Varianten automatisch aktiviert und reduziert Cache-Read-Kosten auf 0,03 Dollar.

Wie vergleicht sich M2.5 mit DeepSeek V3?

M2.5 ist beim Coding deutlich stärker: 80,2 Prozent auf SWE-bench gegenüber DeepSeeks 73,1 Prozent. DeepSeek V3.2 ist dafür nochmals günstiger (0,42 Dollar Output). Für maximale Code-Qualität bei niedrigen Kosten ist M2.5 die bessere Wahl, für reine Kostenminimierung DeepSeek.

Wo kann man MiniMax M2.5 ausprobieren?

M2.5 ist über die offizielle MiniMax-API, OpenRouter, Novita AI, GMI Cloud und Fireworks AI verfügbar. Die Modellgewichte stehen auf Hugging Face und GitHub zum Download bereit. Für Self-Hosting eignen sich vLLM, SGLang, llama.cpp mit Ollama oder KTransformers.