Grünes SUBQ Browser Logo mit USA Fahne und Rakete auf isometrischem Grid

Was ist SubQ?

SubQ ist ein Large Language Model des US Startups Subquadratic mit Hauptsitz in Miami, Florida. Das Modell ist am 5. Mai 2026 aus dem Stealth Modus gekommen und setzt auf eine neue Attention-Architektur namens Subquadratic Sparse Attention (SSA), die laut Hersteller linear statt quadratisch mit der Kontextlänge skaliert. Im Production Modus bietet SubQ ein Context Window von 1 Million Tokens, im Forschungs-Modus reichen 12 Millionen Tokens für rund 9 Millionen Wörter oder 120 Bücher in einem einzigen Prompt.

Die zentrale Behauptung lautet: SubQ reduziert den Attention Compute bei 12 Millionen Tokens um Faktor 1000 gegenüber klassischen Transformer Modellen wie Claude Opus 4.7 oder Gemini 3.1 Pro. Bei 1 Million Tokens werben die Macher mit einem 52,2 fachen Geschwindigkeits-Vorteil gegenüber FlashAttention-2 auf Nvidia B200 GPUs. Auf dem RULER 128K Benchmark erreicht SubQ 95 Prozent Genauigkeit und liegt damit knapp vor Claude Opus 4.6 mit 94,8 Prozent.

Subquadratic Inc. wurde 2024 in Miami gegründet, hieß zunächst Aldea und arbeitete an Voice Models, bevor das Unternehmen auf Attention-Architektur pivotete. Das Team hat 29 Millionen Dollar Seed Funding bei einer Bewertung von 500 Millionen Dollar eingesammelt. Hinter dem Modell stehen 13 Personen, davon 11 PhDs mit Background bei Meta, Google, Oxford, Cambridge, ByteDance, Adobe und Microsoft. Geleitet wird das Unternehmen von CEO Justin Dangel und CTO Alex Whedon, dem ehemaligen Head of Generative AI bei TribeAI.

Wichtig vorab: SubQ ist closed source und wird auch nicht geöffnet. Subquadratic positioniert sich bewusst als kommerzieller API-Anbieter. Die Forschungs-Community reagiert geteilt auf den Launch. Ein Teil hält SSA für eine seriöse Weiterentwicklung von Sparse Attention, andere stellen die Zahlen fundamental in Frage. CTO Whedon hat selbst bestätigt, dass SubQ als Sparse Attention Finetune auf Open Source Weights aufsetzt. Das macht den Begriff ground-up redesign aus dem Marketing-Material erklärungsbedürftig. Wir ordnen weiter unten ein, was an SubQ wirklich neu ist und wo die offenen Fragen liegen.

SubQ einordnen mit NCA: Schnelle Hilfe für lange Kontexte

NCA beobachtet seit Jahren, wie Teams sich an den quadratischen Kosten klassischer Attention die Zähne ausbeißen. In NCA Beratungsprojekten taucht das Thema regelmäßig auf, sobald Codebasen, Vertragssammlungen oder lange Agent-Sessions in einen einzigen Kontext sollen. Wir kennen die Stärken und Schwächen aktueller Long-Context Modelle, die Trade-offs zwischen RAG und nativer Kontext-Verarbeitung sowie die typischen Fehlermuster bei Multi-Hop-Retrieval. Genau dieses Wissen brauchst du, um ein Modell wie SubQ realistisch einordnen zu können statt nur den Marketing-Zahlen zu folgen.

Wenn dein Team über sub-quadratische Architekturen oder lange Kontexte diskutiert, helfen unsere Vibe Coding Consulting Sessions bei der ehrlichen Bewertung neuer Modelle. Bei lokaler Inferenz mit kontrollierten Kosten ist unser Ollama Stack mit Qwen und Llama der bewährte Weg. Für offene Modelle als Alternative zu SubQ bewerten wir Kimi von Moonshot und Qwen von Alibaba in echten Vibe Coding Projekten. Und wenn du Best Practices für KI gestützte Entwicklung suchst, findest du sie gebündelt in unserem Vibe Coding Best Practices Kompendium.

Inhaltsverzeichnis

Lass uns sprechen

Finde das passende Angebot für dein Projekt

🤖

Hey! Ich bin CodeBot. Lass uns herausfinden, wie wir dein Projekt zum Fliegen bringen.

Was soll entstehen?

Wie SSA funktioniert: Subquadratic Sparse Attention erklärt

Klassische Transformer Modelle vergleichen jeden Token mit jedem anderen Token im Kontext. Verdoppelt sich der Input, vervierfacht sich der Rechenaufwand. Diese quadratische Skalierung ist der Grund, warum lange Kontexte teuer sind und Workarounds wie RAG, Chunking oder Multi-Agent-Orchestrierung nötig wurden.

SSA wählt einen anderen Weg. Für jeden Query-Token entscheidet das Modell inhaltsabhängig, welche Positionen im Kontext überhaupt relevant sind. Attention wird nur über diese ausgewählte Untermenge berechnet, der Rest fällt raus. Die Selektion ist dabei nicht fest verdrahtet wie bei Sliding Window oder fixed-pattern Sparse Attention, sondern lernt ihre Routing-Entscheidung aus dem Inhalt selbst.

Damit unterscheidet sich SSA bewusst von drei Vorgänger-Ansätzen. Fixed-pattern Sparse Attention wie Longformer oder BigBird entscheidet vor dem Look-up, wo geschaut wird, und verpasst Inhalte ausserhalb des Patterns. State Space Modelle wie Mamba und RWKV ersetzen Attention durch einen rekurrenten Zustand mit fester Kapazität, der weit zurückliegende Fakten verlieren kann. Hybrid-Architekturen mischen sub-quadratische Layer mit klassischer Dense Attention und behalten damit das quadratische Kostenproblem in den Dense-Layern.

Subquadratic trainiert SSA in drei Stufen: zunächst Pre-Training auf langen Sequenzen, dann Supervised Fine Tuning für Instruction Following und Code Generation, anschliessend Reinforcement Learning mit Fokus auf Long-Context-Retrieval. Das letzte Stadium soll typische Fehlermuster langer Kontexte adressieren: Modelle, die plausible Antworten aus nahen Tokens generieren statt aus relevanten Tokens weiter hinten im Kontext.

Die Speedup-Zahlen werden auf Nvidia B200 GPUs gegen FlashAttention-2 als Baseline gemessen, wobei FlashAttention-3 laut Hersteller auf B200 keinen weiteren Vorteil bringt. Mit wachsender Kontextlänge wächst auch der Vorsprung von SSA, weil klassische Dense Attention quadratisch teurer wird, während SSA nur linear teurer wird.

Kontextlänge	SSA Speedup vs FlashAttention-2	Attention FLOP Reduktion

SubQ Context Window im Vergleich zu GPT, Claude und Gemini

Der dramatischste Unterschied zwischen SubQ und der etablierten Frontier-Modell-Generation liegt nicht in der reinen Genauigkeit, sondern in der Grösse des Context Windows. Während GPT 5.5 mit 400.000 Tokens, Claude Opus 4.6 mit 1 Million Tokens und Gemini 3.1 Pro mit 2 Millionen Tokens arbeiten, behauptet SubQ im Forschungs-Aufbau 12 Millionen Tokens und das auf einer linear skalierenden Architektur statt der quadratischen Dense Attention der Konkurrenz.

Die folgende Übersicht zeigt die Context Window Grössen der wichtigsten Frontier-Modelle inklusive der zugrundeliegenden Architektur. Tabelle und Infografik darunter geben denselben Inhalt einmal textuell und einmal visuell aus, damit Screenreader-Nutzer und visuell orientierte Leser dieselbe Information bekommen. Der Sprung von 2 Millionen auf 12 Millionen Tokens entspricht einer Verfünffachung gegenüber dem bisherigen Maximum.

Modell	Context Window	Architektur und Skalierung
GPT 5.5	400.000 Tokens	Dense Attention, quadratisch O(n²)
Claude Opus 4.6	1.000.000 Tokens	Dense Attention, quadratisch O(n²)
Gemini 3.1 Pro	2.000.000 Tokens	Hybrid Attention, teilweise sub-quadratisch
SubQ Production	1.000.000 Tokens	Sub-Quadratic Sparse Attention SSA, claimed linear
SubQ Research	12.000.000 Tokens	Sub-Quadratic Sparse Attention SSA, claimed linear

Grüne Balken Infografik Context Window Vergleich GPT OPUS GEMINI SUBQ Modelle

SubQ Benchmarks im Vergleich: RULER, MRCR v2 und SWE-Bench

Subquadratic veröffentlicht drei Benchmark-Ergebnisse, die unterschiedlich aussagekräftig sind. RULER 128K testet Long-Context Retrieval und Reasoning. SubQ erreicht hier 95 Prozent, knapp vor Claude Opus 4.6 mit 94,8 Prozent. Allerdings ist RULER 128K bei diesen Werten nahezu gesättigt, das Spitzenfeld liegt eng beieinander.

MRCR v2 ist deutlich anspruchsvoller. Das Modell muss mehrere nicht-aneinandergrenzende Beweisstücke aus einem langen Kontext lokalisieren und kombinieren. SubQ erreicht in der Production Version 65,9 Prozent bei 1 Million Tokens, im Research-Aufbau 83 Prozent. Zum Vergleich: GPT 5.5 erreicht 74 Prozent, Claude Opus 4.6 wird im Tech-Post mit 78,3 Prozent angegeben, im Press Release allerdings nur mit 32,2 Prozent. Diese Diskrepanz in der eigenen Darstellung gibt Anlass zur Skepsis.

SWE-Bench Verified misst End to End Software Engineering an realen GitHub Issues. SubQ erreicht 81,8 Prozent. Damit liegt das Modell auf einem Level mit Gemini 3.1 Pro (80,6) und Claude Opus 4.6 (80,8), aber unter Claude Opus 4.7 (87,6). Für ein neues Modell ist das ein respektabler Wert, allerdings keine Krone des Frontiers.

Der Punkt, der für SubQ wirklich spricht, ist nicht Top-Accuracy sondern Kosten pro korrekter Antwort. Subquadratic gibt für RULER 128K rund 8 Dollar Compute-Kosten an, während Claude Opus dieselbe Genauigkeit mit rund 2600 Dollar erreichen soll. Wenn diese 300 fache Kostenreduktion bei gleicher Accuracy unabhängig validiert wird, ändert das die Ökonomie für viele Long-Context Workloads grundlegend.

Die drei SubQ Produkte: API, Code, Search

Subquadratic startet nicht nur mit einem Modell, sondern direkt mit drei Produkten in der Private Beta. Alle drei nutzen denselben SSA-Kern, adressieren aber verschiedene Zielgruppen.

SubQ API ist der Developer-Einstieg. Sie bietet OpenAI-kompatible Endpunkte mit Tool Use Support und exponiert die 1 Million Token Production Version. Das volle 12 Millionen Token Research Window bleibt vorerst Enterprise-Partnern vorbehalten. Pricing ist offiziell nicht veröffentlicht, der Hersteller spricht von rund einem Fünftel der Kosten von Claude Opus oder GPT 5.5 bei vergleichbaren Workloads.

SubQ Code ist ein CLI Coding Agent, der ganze Codebasen in einen einzigen Kontext lädt. Subquadratic positioniert ihn auch als Long-Context Layer unter bestehenden Tools wie Claude Code, Codex oder Cursor. Die Behauptung lautet 25 Prozent niedrigere Kosten und 10 fach schnellere Code-Exploration. Das ist die am leichtesten testbare Aussage aus dem Launch.

SubQ Search ist ein Long-Context Recherche-Tool, das initial kostenlos für Endnutzer angeboten wird. Subquadratic nutzt es als Land and Expand Wedge gegen Perplexity und ChatGPT Search. Die Ökonomie funktioniert nur, weil Attention-Kosten bei 1 Million Tokens auf SSA dramatisch günstiger sein sollen als bei klassischen Anbietern.

Subquadratic hat angekündigt, die Gewichte des Modells nicht zu öffnen. Damit ist SubQ kein Open-Source-Konkurrent zu Qwen oder Kimi, sondern ein geschlossenes kommerzielles Angebot mit offenen Architektur-Behauptungen.

Warum die Forschungs-Community geteilt reagiert

Innerhalb weniger Stunden nach dem Launch spaltete sich die KI-Community. Auf der Skeptiker-Seite stehen mehrere konkrete Einwände, die jeder kennen sollte, der SubQ heute schon einsetzen will.

Erstens: SubQ ist ein Finetune. Der ehemalige OpenAI Engineer Will Depue postete früh nach dem Launch, dass SubQ fast sicher ein Sparse Attention Finetune auf Kimi oder DeepSeek sei. CTO Alex Whedon hat das auf X öffentlich bestätigt: Subquadratic verwendet Open Source Weights als Startpunkt für das Modell-Training. Das relativiert die im Marketing benutzte Beschreibung als ground-up redesign deutlich. Was wirklich neu ist, ist der SSA-Layer obendrauf, nicht das Basismodell.

Zweitens: Inkonsistente Zahlen. Die Opus 4.6 Werte für MRCR v2 unterscheiden sich zwischen Press-Release (32,2 Prozent) und eigenem Tech-Post (78,3 Prozent) um Faktor zwei. Welche Zahl stimmt, lässt sich von aussen nicht klären. Beides aus derselben Quelle ist ein Warnsignal.

Drittens: Gap zwischen Research und Production. MRCR v2 fällt von 83 Prozent im Forschungs-Aufbau auf 65,9 Prozent im verifizierten Production-Modell. Fast 20 Prozentpunkte Differenz auf einem zentralen Long-Context Benchmark. Das ist erklärungsbedürftig.

Viertens: Closed Weights, kein vollständiger Tech-Report. Bisher gibt es einen Blog-Post zur Architektur und third-party-verifizierte Benchmark-Werte für ausgewählte Tasks. Es gibt keinen vollständigen Technical Report mit Details zu Training, Daten und Ablations. Es gibt keine offenen Gewichte. Es gibt keine unabhängigen Reproduktionen ausserhalb der Firma.

Fünftens: Historischer Kontext mahnt zur Vorsicht. Mamba, RWKV, Hyena, RetNet, BASED, DeepSeek Sparse Attention und Kimi Linear haben alle ähnliche Versprechen gemacht. Alle haben lineare Skalierung in Theorie oder kleineren Modellen demonstriert. Keiner hat Frontier-Production erreicht, ohne in einer hybriden Konstellation zu landen, die die quadratischen Kosten ironischerweise wieder hereinholt. SubQ trägt die Beweislast aller Vorgänger.

Auf der anderen Seite: AI Researcher John Rysana hat Theranos-Vergleiche zurückgewiesen mit der Einschätzung, das Werk sei einfach Subquadratic Attention sauber gemacht, was sehr bedeutsam für Long-Context Workloads ist. Sparse Attention selbst ist seriöses Forschungsfeld. Das Team hinter Subquadratic hat substanzielle Background bei Meta, Google und einer Reihe Top Universitäten. Eine Version der Wahrheit könnte sein: SSA ist eine echte Verbesserung gegenüber bisherigen Sparse-Ansätzen, die 1000 fach Behauptung ist aber in dieser Form überzogen.

SubQ is either the biggest breakthrough since the Transformer or it is AI Theranos.

Dan McAteer, AI Commentator – via VentureBeat (5. Mai 2026)

Vorgänger-Architekturen: Mamba, RWKV, DSA und Kimi Linear

Sub-quadratische Attention ist seit Jahren eines der heissesten Forschungsfelder im Machine Learning. Eine ganze Reihe von Architekturen hat versucht, das quadratische Skalierungs-Problem zu lösen. Wer SubQ einordnen will, sollte diese Vorgeschichte kennen.

Mamba und RWKV sind State Space Modelle. Sie ersetzen Attention durch einen rekurrenten Zustand und erreichen damit lineare FLOP-Komplexität und konstanten Memory-Bedarf bei der Inferenz. Das funktioniert in kleinen und mittleren Modellen, fällt aber in Frontier-Skala bei Downstream-Benchmarks gegen klassische Attention zurück. Spezifische Fakten aus weit zurückliegenden Token-Positionen lassen sich nicht zuverlässig rekonstruieren.

DeepSeek Sparse Attention (DSA) versucht, die Attention-Kosten an einen Lightning Indexer auszulagern, der pro Query auswählt, welche Keys relevant sind. Eine LessWrong-Analyse vom Januar 2026 hat allerdings nachgewiesen, dass DSA in der praktischen Implementierung quadratisch bleibt, weil der Indexer selbst quadratisch über alle Query-Key-Paare scort. Die Komplexität wurde verschoben, nicht entfernt.

Kimi Linear liefert nach eigenem Paper eine 6,3 fache Inferenz-Geschwindigkeit bei 1 Million Tokens. Auch Kimi Linear ist in der ausgelieferten Implementierung praktisch quadratisch. Die LessWrong-Analyse ordnet diese Klasse von Architekturen sehr ehrlich ein als incremental improvement number 93595 to the transformer architecture. Sub-quadratisch im Marketing, quadratisch im Code, der wirklich produziert wird.

Hyena, RetNet, BASED und andere Hybrid-Architekturen mischen sub-quadratische Layer mit klassischer Dense Attention. Sie behalten die Stärken klassischer Attention, holen aber damit auch deren Kosten in den Dense-Layern wieder herein. Pure Sub-Quadratic ohne Hybrid-Hilfe ist in der Frontier-Production noch nicht eingetroffen.

Vor diesem Hintergrund ist SubQ nicht der erste Versuch, sondern der bisher selbstbewussteste. Die Behauptung, fully sub-quadratisch ohne Hybrid-Komponenten und auf Frontier-Niveau zu sein, ist deutlich grösser als alles, was Vorgänger versprochen haben. Die Beweislast liegt deshalb auch entsprechend hoch.

Was SubQ heute schon praktisch verändern könnte

Selbst wenn die 1000 fach Behauptung beim 12 Millionen Token Research-Modell auf 50 fach beim 1 Millionen Token Production-Modell schrumpft, wäre das ökonomisch noch immer relevant. Drei Workload-Klassen profitieren am offensichtlichsten.

Codebase-zentrierte Entwicklung. Eine mittelgrosse Codebasis mit Tests und Dokumentation passt heute kaum in 1 Million Tokens. Bei 12 Millionen Tokens wäre der gesamte Repo-Inhalt in einem einzigen Prompt verfügbar, ohne dass RAG-Pipelines die richtigen Dateien selektieren müssen. Das passt zur Positionierung von SubQ Code als CLI-Agent, der ganze Repos lädt.

Vertrags und Dokumenten-Workflows. Komplexe Verträge mit Querverweisen, Ausnahmen und Definitionen über mehrere Seiten hinweg sind klassische Multi-Hop-Retrieval Aufgaben. Bei kleinem Kontext fehlt regelmässig der entscheidende Querverweis. Lange Kontexte ohne RAG-Krücken könnten hier echten Wert bringen, wenn Genauigkeit und Kosten passen.

Persistente Agent-Sessions. Lange Coding-Sessions mit Plan, Zwischenständen, Reviews und Regressionen profitieren davon, wenn keine Information durch Kontext-Boundaries verloren geht. Aktuell rettet man Kontext über externes State-Management, persistente Memory-Systeme oder Multi-Agent-Architekturen wie Paperclip. Lange native Kontexte könnten Teile dieser Komplexität entfernen.

Was SubQ nicht ersetzt: schnell ändernde Daten, user-spezifische Personalisierung und Echtzeit-Recherche brauchen weiterhin Retrieval. RAG verschwindet nicht, der Use Case wird aber kleiner. Wer heute schon mit langen Kontexten arbeitet, kennt die Trade-offs zwischen Native-Kontext und RAG. SubQ verschiebt diese Balance, ersetzt sie aber nicht.

Bevor produktive Workloads umziehen, sollten unabhängige Benchmarks vorliegen, die SLA-relevante Faktoren wie Output Quality unter Last, Tail Latency und Halluzinationsrate bei wirklich grossen Kontexten messen. Marketing-Benchmarks sind ein Startpunkt, kein Endpunkt.

NCA Einordnung: SubQ ehrlich bewerten statt blind springen

NCA setzt SubQ in keinem Production-Stack ein. Unser bewährter Stack basiert auf Ollama mit Qwen und Llama für lokale Inferenz, Claude Code und OpenCode für KI-gestützte Entwicklung sowie llama.cpp als Inferenz-Backend wenn es klein und schnell sein muss. Wer mit uns über lange Kontexte spricht, bekommt eine ehrliche Einordnung der heute verfügbaren Trade-offs zwischen Modellgrösse, Kontextfenster und Kosten.

Drei Empfehlungen, falls SubQ für dein Projekt in Frage kommt. Erstens warten und beobachten. Bis ein vollständiger Tech-Report, unabhängige Benchmarks und idealerweise eine offene Architektur-Beschreibung vorliegen, gehört SubQ in keinen kritischen Production-Pfad. Bei Projekt-Rettungs-Engagements sehen wir regelmässig, was passiert, wenn Teams zu früh auf Frontier-Versprechen setzen.

Zweitens parallel testen. SubQ Search ist kostenlos und bietet sich für Vergleichs-Recherchen an. SubQ Code lässt sich in einem isolierten Test-Repo gegen Claude Code messen. Beides ohne Production-Daten, beides mit klaren Erfolgs-Kriterien. Wenn du eine strukturierte Vergleichs-Methodik brauchst, ist unsere Vibe Coding Best Practices Sammlung der Startpunkt.

Drittens DSGVO und Governance früh klären. SubQ läuft als geschlossene Cloud-API aus den USA. Wer in Deutschland mit sensiblen Daten arbeitet, sollte vor jedem Pilot die DSGVO-Folgen klären. Unsere Vibe Coding Datenschutz und DSGVO Beratung sowie KI Assistenten selbst hosten sind die NCA-Defaults für regulierte Branchen.

NCA bewertet Tools wie SubQ kritisch und ehrlich. Wir empfehlen nichts, was wir selbst nicht in Production-Bedingungen oder strukturierten Beratungsprojekten getestet haben. Sobald unabhängige Benchmarks vorliegen, aktualisieren wir diese Einordnung.

CYPRESS.IO Ambassador und IT Consultant für QA Engenieering und Qualität in PHP Projekten.

NCA Vibe Coding Consulting

Roland Golla ist Entwickler aus Leidenschaft – seit über 20 Jahren. Er hat hunderte Projekte begleitet, von Legacy-Refactoring bis KI-Integration. Bei Vibe Coding verbindet er das Beste aus beiden Welten: Die Geschwindigkeit von KI-generiertem Code mit der Qualität professioneller Softwareentwicklung. Kein Bullshit, keine Agentur-Floskeln – direkte Hilfe von jemandem, der selbst täglich im Code steckt.

E-Mail Kontakt

Häufige Fragen zu SubQ

Die zwölf häufigsten Fragen rund um SubQ, Subquadratic Sparse Attention und das 12 Millionen Token Context Window aus NCA Beratungsprojekten und der ersten öffentlichen Diskussion seit dem Launch.

Was ist SubQ und wer hat es 2026 gelauncht?

SubQ ist ein Large Language Model des Miami Startups Subquadratic, das am 5. Mai 2026 aus dem Stealth Modus gekommen ist. Das Modell setzt auf eine neue Attention-Architektur namens Subquadratic Sparse Attention und bietet ein Context Window von 1 Million Tokens in der Production-API sowie 12 Millionen Tokens im Forschungs-Aufbau.

Wie funktioniert Subquadratic Sparse Attention SSA 2026?

SSA wählt für jeden Query-Token inhaltsabhängig aus, welche Positionen im Kontext attentiert werden. Statt aller Token-Paare wird nur eine kleine relevante Untermenge berechnet. Das soll lineare statt quadratische Skalierung mit der Kontextlänge ermöglichen, ohne fixe Pattern wie Sliding Windows zu erzwingen.

Wie schnell ist SubQ wirklich gegenüber FlashAttention 2026?

Subquadratic gibt für die Production Version auf Nvidia B200 GPUs einen 7,2 fachen Speedup bei 128K Tokens, 13,2 fach bei 256K, 23 fach bei 512K und 52,2 fach bei 1 Million Tokens an. Bei 12 Millionen Tokens nennt das Unternehmen eine rund 1000 fache Reduktion der Attention FLOPs gegenüber klassischer Dense Attention.

Welche Benchmarks erreicht SubQ 2026?

Third party verifizierte Werte: 95 Prozent auf RULER 128K, 65,9 Prozent auf MRCR v2 bei 1 Million Tokens und 81,8 Prozent auf SWE-Bench Verified. Im Forschungs-Aufbau erreicht SubQ auf MRCR v2 sogar 83 Prozent. RULER 128K ist nahe der Sättigungsgrenze, MRCR v2 differenziert deutlicher zwischen Frontier-Modellen.

Ist SubQ wirklich ein ground-up redesign der Attention 2026?

CTO Alex Whedon hat öffentlich auf X bestätigt, dass SubQ Open Source Weights als Startpunkt für das Training nutzt. Das macht den im Marketing benutzten Begriff ground-up redesign erklärungsbedürftig. Was wirklich neu ist, ist der SSA-Layer auf bestehenden Modell-Weights, nicht das gesamte Basismodell.

Warum ist die KI Forschungs-Community geteilt zu SubQ?

Die Skepsis hat fünf Quellen: Bestätigung als Sparse Attention Finetune statt Neuentwicklung, inkonsistente Vergleichszahlen für Opus 4.6 zwischen Press-Release und Tech-Post, ein 17 Punkte Gap zwischen Research und Production auf MRCR v2, fehlender vollständiger Tech-Report mit Ablations und die Geschichte gescheiterter Vorgänger wie Mamba, RWKV, DSA und Kimi Linear.

Welche Vorgänger-Architekturen hat SubQ Sparse Attention?

Sub-quadratische Attention ist seit Jahren ein heisses Forschungsfeld. Mamba und RWKV sind State Space Modelle mit linearer Skalierung. DeepSeek Sparse Attention DSA und Kimi Linear sind in der Praxis quadratisch implementiert. Hyena, RetNet und BASED sind hybrid und behalten Dense Attention in zentralen Layern. Keiner hat bisher Frontier-Production ohne Hybrid-Komponente erreicht.

Welche Produkte launcht Subquadratic mit SubQ?

Drei Produkte starten am 5. Mai 2026 in Private Beta: SubQ API als OpenAI-kompatible Endpunkt-Schnittstelle, SubQ Code als CLI Coding Agent für ganze Codebasen und SubQ Search als kostenlose Long-Context Recherche-Alternative zu Perplexity und ChatGPT Search. Das volle 12 Millionen Token Context Window bleibt vorerst Enterprise-Partnern vorbehalten.

Wie viel kostet SubQ und wer hat investiert?

Subquadratic hat 29 Millionen Dollar Seed Funding bei einer Bewertung von 500 Millionen Dollar eingesammelt. Investoren sind Justin Mateen (Tinder Co-Founder), Javier Villamizar (ex SoftBank Vision Fund), Grant Gittlin und frühe Investoren in Anthropic, OpenAI, Stripe und Brex. Pricing ist offiziell nicht veröffentlicht. Subquadratic spricht von rund einem Fünftel der Kosten von Claude Opus oder GPT 5.5 bei vergleichbaren Workloads.

Macht SubQ RAG und Retrieval-Pipelines überflüssig?

Bei statischen Wissensbasen, Codebasen und Dokumenten-Reviews könnte SubQ RAG für viele Use Cases ersetzen, weil grosse Datenmengen nativ in einen einzigen Kontext passen. Real-time Daten, schnell ändernde Informationen und user-spezifische Personalisierung brauchen weiterhin Retrieval. RAG verschwindet nicht, der Anwendungsbereich wird aber kleiner.

Sollte ich SubQ heute schon im Production-Stack einsetzen?

Aus NCA-Sicht nein. Bis ein vollständiger Tech-Report, unabhängige Benchmarks und idealerweise offene Architektur-Beschreibungen vorliegen, gehört SubQ in keinen kritischen Production-Pfad. Parallel testen in isolierten Vergleichs-Szenarien gegen etablierte Tools wie Claude Code ist sinnvoll. Production-Migration ist verfrüht.

Wie ordnet NCA SubQ im Vergleich zum Open Source Lager ein?

SubQ ist closed source und tritt damit nicht direkt gegen offene Modelle wie Kimi K2.5 oder Qwen an. Subquadratic positioniert sich als kommerzieller API-Anbieter mit Architektur-Innovation. Wer DSGVO-konforme lokale Inferenz braucht, fährt mit Ollama plus Open Source Modellen bisher die solidere Strecke. Beide Welten können langfristig nebeneinander existieren.

Ist SubQ Open Source und wo liegt der Hauptsitz?

Nein, SubQ ist closed source. Subquadratic Inc. mit Hauptsitz in Miami, Florida hat öffentlich erklärt, dass weder die Modell-Gewichte noch ein vollständiger Technical Report veröffentlicht werden sollen. Das Unternehmen positioniert sich als kommerzieller API-Anbieter. Ironisch: SubQ basiert laut CTO Alex Whedon selbst auf Open Source Weights von Kimi oder DeepSeek als Trainings-Startpunkt. Subquadratic nutzt also offene Forschung und gibt nichts zurück.

A/B Testing mit KI – Automatisiertes Testing für Entwickler 2026