Wie du mit Open-Source-Tools wie PostHog und GrowthBook plus KI-Coding-Agents professionelles A/B Testing selbst umsetzt - ohne teure SaaS-Loesungen.
SubQ ist ein Large Language Model des US Startups Subquadratic mit Hauptsitz in Miami, Florida. Das Modell ist am 5. Mai 2026 aus dem Stealth Modus gekommen und setzt auf eine neue Attention-Architektur namens Subquadratic Sparse Attention (SSA), die laut Hersteller linear statt quadratisch mit der Kontextlänge skaliert. Im Production Modus bietet SubQ ein Context Window von 1 Million Tokens, im Forschungs-Modus reichen 12 Millionen Tokens für rund 9 Millionen Wörter oder 120 Bücher in einem einzigen Prompt.
Die zentrale Behauptung lautet: SubQ reduziert den Attention Compute bei 12 Millionen Tokens um Faktor 1000 gegenüber klassischen Transformer Modellen wie Claude Opus 4.7 oder Gemini 3.1 Pro. Bei 1 Million Tokens werben die Macher mit einem 52,2 fachen Geschwindigkeits-Vorteil gegenüber FlashAttention-2 auf Nvidia B200 GPUs. Auf dem RULER 128K Benchmark erreicht SubQ 95 Prozent Genauigkeit und liegt damit knapp vor Claude Opus 4.6 mit 94,8 Prozent.
Subquadratic Inc. wurde 2024 in Miami gegründet, hieß zunächst Aldea und arbeitete an Voice Models, bevor das Unternehmen auf Attention-Architektur pivotete. Das Team hat 29 Millionen Dollar Seed Funding bei einer Bewertung von 500 Millionen Dollar eingesammelt. Hinter dem Modell stehen 13 Personen, davon 11 PhDs mit Background bei Meta, Google, Oxford, Cambridge, ByteDance, Adobe und Microsoft. Geleitet wird das Unternehmen von CEO Justin Dangel und CTO Alex Whedon, dem ehemaligen Head of Generative AI bei TribeAI.
Wichtig vorab: SubQ ist closed source und wird auch nicht geöffnet. Subquadratic positioniert sich bewusst als kommerzieller API-Anbieter. Die Forschungs-Community reagiert geteilt auf den Launch. Ein Teil hält SSA für eine seriöse Weiterentwicklung von Sparse Attention, andere stellen die Zahlen fundamental in Frage. CTO Whedon hat selbst bestätigt, dass SubQ als Sparse Attention Finetune auf Open Source Weights aufsetzt. Das macht den Begriff ground-up redesign aus dem Marketing-Material erklärungsbedürftig. Wir ordnen weiter unten ein, was an SubQ wirklich neu ist und wo die offenen Fragen liegen.
NCA beobachtet seit Jahren, wie Teams sich an den quadratischen Kosten klassischer Attention die Zähne ausbeißen. In NCA Beratungsprojekten taucht das Thema regelmäßig auf, sobald Codebasen, Vertragssammlungen oder lange Agent-Sessions in einen einzigen Kontext sollen. Wir kennen die Stärken und Schwächen aktueller Long-Context Modelle, die Trade-offs zwischen RAG und nativer Kontext-Verarbeitung sowie die typischen Fehlermuster bei Multi-Hop-Retrieval. Genau dieses Wissen brauchst du, um ein Modell wie SubQ realistisch einordnen zu können statt nur den Marketing-Zahlen zu folgen.
Wenn dein Team über sub-quadratische Architekturen oder lange Kontexte diskutiert, helfen unsere Vibe Coding Consulting Sessions bei der ehrlichen Bewertung neuer Modelle. Bei lokaler Inferenz mit kontrollierten Kosten ist unser Ollama Stack mit Qwen und Llama der bewährte Weg. Für offene Modelle als Alternative zu SubQ bewerten wir Kimi von Moonshot und Qwen von Alibaba in echten Vibe Coding Projekten. Und wenn du Best Practices für KI gestützte Entwicklung suchst, findest du sie gebündelt in unserem Vibe Coding Best Practices Kompendium.
Finde das passende Angebot für dein Projekt
Hey! Ich bin CodeBot. Lass uns herausfinden, wie wir dein Projekt zum Fliegen bringen.
Was soll entstehen?
Klassische Transformer Modelle vergleichen jeden Token mit jedem anderen Token im Kontext. Verdoppelt sich der Input, vervierfacht sich der Rechenaufwand. Diese quadratische Skalierung ist der Grund, warum lange Kontexte teuer sind und Workarounds wie RAG, Chunking oder Multi-Agent-Orchestrierung nötig wurden.
SSA wählt einen anderen Weg. Für jeden Query-Token entscheidet das Modell inhaltsabhängig, welche Positionen im Kontext überhaupt relevant sind. Attention wird nur über diese ausgewählte Untermenge berechnet, der Rest fällt raus. Die Selektion ist dabei nicht fest verdrahtet wie bei Sliding Window oder fixed-pattern Sparse Attention, sondern lernt ihre Routing-Entscheidung aus dem Inhalt selbst.
Damit unterscheidet sich SSA bewusst von drei Vorgänger-Ansätzen. Fixed-pattern Sparse Attention wie Longformer oder BigBird entscheidet vor dem Look-up, wo geschaut wird, und verpasst Inhalte ausserhalb des Patterns. State Space Modelle wie Mamba und RWKV ersetzen Attention durch einen rekurrenten Zustand mit fester Kapazität, der weit zurückliegende Fakten verlieren kann. Hybrid-Architekturen mischen sub-quadratische Layer mit klassischer Dense Attention und behalten damit das quadratische Kostenproblem in den Dense-Layern.
Subquadratic trainiert SSA in drei Stufen: zunächst Pre-Training auf langen Sequenzen, dann Supervised Fine Tuning für Instruction Following und Code Generation, anschliessend Reinforcement Learning mit Fokus auf Long-Context-Retrieval. Das letzte Stadium soll typische Fehlermuster langer Kontexte adressieren: Modelle, die plausible Antworten aus nahen Tokens generieren statt aus relevanten Tokens weiter hinten im Kontext.
Die Speedup-Zahlen werden auf Nvidia B200 GPUs gegen FlashAttention-2 als Baseline gemessen, wobei FlashAttention-3 laut Hersteller auf B200 keinen weiteren Vorteil bringt. Mit wachsender Kontextlänge wächst auch der Vorsprung von SSA, weil klassische Dense Attention quadratisch teurer wird, während SSA nur linear teurer wird.
| Kontextlänge | SSA Speedup vs FlashAttention-2 | Attention FLOP Reduktion |
|---|
Der dramatischste Unterschied zwischen SubQ und der etablierten Frontier-Modell-Generation liegt nicht in der reinen Genauigkeit, sondern in der Grösse des Context Windows. Während GPT 5.5 mit 400.000 Tokens, Claude Opus 4.6 mit 1 Million Tokens und Gemini 3.1 Pro mit 2 Millionen Tokens arbeiten, behauptet SubQ im Forschungs-Aufbau 12 Millionen Tokens und das auf einer linear skalierenden Architektur statt der quadratischen Dense Attention der Konkurrenz.
Die folgende Übersicht zeigt die Context Window Grössen der wichtigsten Frontier-Modelle inklusive der zugrundeliegenden Architektur. Tabelle und Infografik darunter geben denselben Inhalt einmal textuell und einmal visuell aus, damit Screenreader-Nutzer und visuell orientierte Leser dieselbe Information bekommen. Der Sprung von 2 Millionen auf 12 Millionen Tokens entspricht einer Verfünffachung gegenüber dem bisherigen Maximum.
| Modell | Context Window | Architektur und Skalierung |
|---|---|---|
| GPT 5.5 | 400.000 Tokens | Dense Attention, quadratisch O(n²) |
| Claude Opus 4.6 | 1.000.000 Tokens | Dense Attention, quadratisch O(n²) |
| Gemini 3.1 Pro | 2.000.000 Tokens | Hybrid Attention, teilweise sub-quadratisch |
| SubQ Production | 1.000.000 Tokens | Sub-Quadratic Sparse Attention SSA, claimed linear |
| SubQ Research | 12.000.000 Tokens | Sub-Quadratic Sparse Attention SSA, claimed linear |
Subquadratic veröffentlicht drei Benchmark-Ergebnisse, die unterschiedlich aussagekräftig sind. RULER 128K testet Long-Context Retrieval und Reasoning. SubQ erreicht hier 95 Prozent, knapp vor Claude Opus 4.6 mit 94,8 Prozent. Allerdings ist RULER 128K bei diesen Werten nahezu gesättigt, das Spitzenfeld liegt eng beieinander.
MRCR v2 ist deutlich anspruchsvoller. Das Modell muss mehrere nicht-aneinandergrenzende Beweisstücke aus einem langen Kontext lokalisieren und kombinieren. SubQ erreicht in der Production Version 65,9 Prozent bei 1 Million Tokens, im Research-Aufbau 83 Prozent. Zum Vergleich: GPT 5.5 erreicht 74 Prozent, Claude Opus 4.6 wird im Tech-Post mit 78,3 Prozent angegeben, im Press Release allerdings nur mit 32,2 Prozent. Diese Diskrepanz in der eigenen Darstellung gibt Anlass zur Skepsis.
SWE-Bench Verified misst End to End Software Engineering an realen GitHub Issues. SubQ erreicht 81,8 Prozent. Damit liegt das Modell auf einem Level mit Gemini 3.1 Pro (80,6) und Claude Opus 4.6 (80,8), aber unter Claude Opus 4.7 (87,6). Für ein neues Modell ist das ein respektabler Wert, allerdings keine Krone des Frontiers.
Der Punkt, der für SubQ wirklich spricht, ist nicht Top-Accuracy sondern Kosten pro korrekter Antwort. Subquadratic gibt für RULER 128K rund 8 Dollar Compute-Kosten an, während Claude Opus dieselbe Genauigkeit mit rund 2600 Dollar erreichen soll. Wenn diese 300 fache Kostenreduktion bei gleicher Accuracy unabhängig validiert wird, ändert das die Ökonomie für viele Long-Context Workloads grundlegend.
Subquadratic startet nicht nur mit einem Modell, sondern direkt mit drei Produkten in der Private Beta. Alle drei nutzen denselben SSA-Kern, adressieren aber verschiedene Zielgruppen.
SubQ API ist der Developer-Einstieg. Sie bietet OpenAI-kompatible Endpunkte mit Tool Use Support und exponiert die 1 Million Token Production Version. Das volle 12 Millionen Token Research Window bleibt vorerst Enterprise-Partnern vorbehalten. Pricing ist offiziell nicht veröffentlicht, der Hersteller spricht von rund einem Fünftel der Kosten von Claude Opus oder GPT 5.5 bei vergleichbaren Workloads.
SubQ Code ist ein CLI Coding Agent, der ganze Codebasen in einen einzigen Kontext lädt. Subquadratic positioniert ihn auch als Long-Context Layer unter bestehenden Tools wie Claude Code, Codex oder Cursor. Die Behauptung lautet 25 Prozent niedrigere Kosten und 10 fach schnellere Code-Exploration. Das ist die am leichtesten testbare Aussage aus dem Launch.
SubQ Search ist ein Long-Context Recherche-Tool, das initial kostenlos für Endnutzer angeboten wird. Subquadratic nutzt es als Land and Expand Wedge gegen Perplexity und ChatGPT Search. Die Ökonomie funktioniert nur, weil Attention-Kosten bei 1 Million Tokens auf SSA dramatisch günstiger sein sollen als bei klassischen Anbietern.
Innerhalb weniger Stunden nach dem Launch spaltete sich die KI-Community. Auf der Skeptiker-Seite stehen mehrere konkrete Einwände, die jeder kennen sollte, der SubQ heute schon einsetzen will.
Erstens: SubQ ist ein Finetune. Der ehemalige OpenAI Engineer Will Depue postete früh nach dem Launch, dass SubQ fast sicher ein Sparse Attention Finetune auf Kimi oder DeepSeek sei. CTO Alex Whedon hat das auf X öffentlich bestätigt: Subquadratic verwendet Open Source Weights als Startpunkt für das Modell-Training. Das relativiert die im Marketing benutzte Beschreibung als ground-up redesign deutlich. Was wirklich neu ist, ist der SSA-Layer obendrauf, nicht das Basismodell.
Zweitens: Inkonsistente Zahlen. Die Opus 4.6 Werte für MRCR v2 unterscheiden sich zwischen Press-Release (32,2 Prozent) und eigenem Tech-Post (78,3 Prozent) um Faktor zwei. Welche Zahl stimmt, lässt sich von aussen nicht klären. Beides aus derselben Quelle ist ein Warnsignal.
Drittens: Gap zwischen Research und Production. MRCR v2 fällt von 83 Prozent im Forschungs-Aufbau auf 65,9 Prozent im verifizierten Production-Modell. Fast 20 Prozentpunkte Differenz auf einem zentralen Long-Context Benchmark. Das ist erklärungsbedürftig.
Viertens: Closed Weights, kein vollständiger Tech-Report. Bisher gibt es einen Blog-Post zur Architektur und third-party-verifizierte Benchmark-Werte für ausgewählte Tasks. Es gibt keinen vollständigen Technical Report mit Details zu Training, Daten und Ablations. Es gibt keine offenen Gewichte. Es gibt keine unabhängigen Reproduktionen ausserhalb der Firma.
Fünftens: Historischer Kontext mahnt zur Vorsicht. Mamba, RWKV, Hyena, RetNet, BASED, DeepSeek Sparse Attention und Kimi Linear haben alle ähnliche Versprechen gemacht. Alle haben lineare Skalierung in Theorie oder kleineren Modellen demonstriert. Keiner hat Frontier-Production erreicht, ohne in einer hybriden Konstellation zu landen, die die quadratischen Kosten ironischerweise wieder hereinholt. SubQ trägt die Beweislast aller Vorgänger.
Auf der anderen Seite: AI Researcher John Rysana hat Theranos-Vergleiche zurückgewiesen mit der Einschätzung, das Werk sei einfach Subquadratic Attention sauber gemacht, was sehr bedeutsam für Long-Context Workloads ist. Sparse Attention selbst ist seriöses Forschungsfeld. Das Team hinter Subquadratic hat substanzielle Background bei Meta, Google und einer Reihe Top Universitäten. Eine Version der Wahrheit könnte sein: SSA ist eine echte Verbesserung gegenüber bisherigen Sparse-Ansätzen, die 1000 fach Behauptung ist aber in dieser Form überzogen.
SubQ is either the biggest breakthrough since the Transformer or it is AI Theranos.
Sub-quadratische Attention ist seit Jahren eines der heissesten Forschungsfelder im Machine Learning. Eine ganze Reihe von Architekturen hat versucht, das quadratische Skalierungs-Problem zu lösen. Wer SubQ einordnen will, sollte diese Vorgeschichte kennen.
Mamba und RWKV sind State Space Modelle. Sie ersetzen Attention durch einen rekurrenten Zustand und erreichen damit lineare FLOP-Komplexität und konstanten Memory-Bedarf bei der Inferenz. Das funktioniert in kleinen und mittleren Modellen, fällt aber in Frontier-Skala bei Downstream-Benchmarks gegen klassische Attention zurück. Spezifische Fakten aus weit zurückliegenden Token-Positionen lassen sich nicht zuverlässig rekonstruieren.
DeepSeek Sparse Attention (DSA) versucht, die Attention-Kosten an einen Lightning Indexer auszulagern, der pro Query auswählt, welche Keys relevant sind. Eine LessWrong-Analyse vom Januar 2026 hat allerdings nachgewiesen, dass DSA in der praktischen Implementierung quadratisch bleibt, weil der Indexer selbst quadratisch über alle Query-Key-Paare scort. Die Komplexität wurde verschoben, nicht entfernt.
Kimi Linear liefert nach eigenem Paper eine 6,3 fache Inferenz-Geschwindigkeit bei 1 Million Tokens. Auch Kimi Linear ist in der ausgelieferten Implementierung praktisch quadratisch. Die LessWrong-Analyse ordnet diese Klasse von Architekturen sehr ehrlich ein als incremental improvement number 93595 to the transformer architecture. Sub-quadratisch im Marketing, quadratisch im Code, der wirklich produziert wird.
Hyena, RetNet, BASED und andere Hybrid-Architekturen mischen sub-quadratische Layer mit klassischer Dense Attention. Sie behalten die Stärken klassischer Attention, holen aber damit auch deren Kosten in den Dense-Layern wieder herein. Pure Sub-Quadratic ohne Hybrid-Hilfe ist in der Frontier-Production noch nicht eingetroffen.
Vor diesem Hintergrund ist SubQ nicht der erste Versuch, sondern der bisher selbstbewussteste. Die Behauptung, fully sub-quadratisch ohne Hybrid-Komponenten und auf Frontier-Niveau zu sein, ist deutlich grösser als alles, was Vorgänger versprochen haben. Die Beweislast liegt deshalb auch entsprechend hoch.
Selbst wenn die 1000 fach Behauptung beim 12 Millionen Token Research-Modell auf 50 fach beim 1 Millionen Token Production-Modell schrumpft, wäre das ökonomisch noch immer relevant. Drei Workload-Klassen profitieren am offensichtlichsten.
Codebase-zentrierte Entwicklung. Eine mittelgrosse Codebasis mit Tests und Dokumentation passt heute kaum in 1 Million Tokens. Bei 12 Millionen Tokens wäre der gesamte Repo-Inhalt in einem einzigen Prompt verfügbar, ohne dass RAG-Pipelines die richtigen Dateien selektieren müssen. Das passt zur Positionierung von SubQ Code als CLI-Agent, der ganze Repos lädt.
Vertrags und Dokumenten-Workflows. Komplexe Verträge mit Querverweisen, Ausnahmen und Definitionen über mehrere Seiten hinweg sind klassische Multi-Hop-Retrieval Aufgaben. Bei kleinem Kontext fehlt regelmässig der entscheidende Querverweis. Lange Kontexte ohne RAG-Krücken könnten hier echten Wert bringen, wenn Genauigkeit und Kosten passen.
Persistente Agent-Sessions. Lange Coding-Sessions mit Plan, Zwischenständen, Reviews und Regressionen profitieren davon, wenn keine Information durch Kontext-Boundaries verloren geht. Aktuell rettet man Kontext über externes State-Management, persistente Memory-Systeme oder Multi-Agent-Architekturen wie Paperclip. Lange native Kontexte könnten Teile dieser Komplexität entfernen.
Was SubQ nicht ersetzt: schnell ändernde Daten, user-spezifische Personalisierung und Echtzeit-Recherche brauchen weiterhin Retrieval. RAG verschwindet nicht, der Use Case wird aber kleiner. Wer heute schon mit langen Kontexten arbeitet, kennt die Trade-offs zwischen Native-Kontext und RAG. SubQ verschiebt diese Balance, ersetzt sie aber nicht.
Bevor produktive Workloads umziehen, sollten unabhängige Benchmarks vorliegen, die SLA-relevante Faktoren wie Output Quality unter Last, Tail Latency und Halluzinationsrate bei wirklich grossen Kontexten messen. Marketing-Benchmarks sind ein Startpunkt, kein Endpunkt.
NCA setzt SubQ in keinem Production-Stack ein. Unser bewährter Stack basiert auf Ollama mit Qwen und Llama für lokale Inferenz, Claude Code und OpenCode für KI-gestützte Entwicklung sowie llama.cpp als Inferenz-Backend wenn es klein und schnell sein muss. Wer mit uns über lange Kontexte spricht, bekommt eine ehrliche Einordnung der heute verfügbaren Trade-offs zwischen Modellgrösse, Kontextfenster und Kosten.
Drei Empfehlungen, falls SubQ für dein Projekt in Frage kommt. Erstens warten und beobachten. Bis ein vollständiger Tech-Report, unabhängige Benchmarks und idealerweise eine offene Architektur-Beschreibung vorliegen, gehört SubQ in keinen kritischen Production-Pfad. Bei Projekt-Rettungs-Engagements sehen wir regelmässig, was passiert, wenn Teams zu früh auf Frontier-Versprechen setzen.
Zweitens parallel testen. SubQ Search ist kostenlos und bietet sich für Vergleichs-Recherchen an. SubQ Code lässt sich in einem isolierten Test-Repo gegen Claude Code messen. Beides ohne Production-Daten, beides mit klaren Erfolgs-Kriterien. Wenn du eine strukturierte Vergleichs-Methodik brauchst, ist unsere Vibe Coding Best Practices Sammlung der Startpunkt.
Drittens DSGVO und Governance früh klären. SubQ läuft als geschlossene Cloud-API aus den USA. Wer in Deutschland mit sensiblen Daten arbeitet, sollte vor jedem Pilot die DSGVO-Folgen klären. Unsere Vibe Coding Datenschutz und DSGVO Beratung sowie KI Assistenten selbst hosten sind die NCA-Defaults für regulierte Branchen.
NCA bewertet Tools wie SubQ kritisch und ehrlich. Wir empfehlen nichts, was wir selbst nicht in Production-Bedingungen oder strukturierten Beratungsprojekten getestet haben. Sobald unabhängige Benchmarks vorliegen, aktualisieren wir diese Einordnung.
Roland Golla ist Entwickler aus Leidenschaft – seit über 20 Jahren. Er hat hunderte Projekte begleitet, von Legacy-Refactoring bis KI-Integration. Bei Vibe Coding verbindet er das Beste aus beiden Welten: Die Geschwindigkeit von KI-generiertem Code mit der Qualität professioneller Softwareentwicklung. Kein Bullshit, keine Agentur-Floskeln – direkte Hilfe von jemandem, der selbst täglich im Code steckt.
Die zwölf häufigsten Fragen rund um SubQ, Subquadratic Sparse Attention und das 12 Millionen Token Context Window aus NCA Beratungsprojekten und der ersten öffentlichen Diskussion seit dem Launch.
SubQ ist ein Large Language Model des Miami Startups Subquadratic, das am 5. Mai 2026 aus dem Stealth Modus gekommen ist. Das Modell setzt auf eine neue Attention-Architektur namens Subquadratic Sparse Attention und bietet ein Context Window von 1 Million Tokens in der Production-API sowie 12 Millionen Tokens im Forschungs-Aufbau.
SSA wählt für jeden Query-Token inhaltsabhängig aus, welche Positionen im Kontext attentiert werden. Statt aller Token-Paare wird nur eine kleine relevante Untermenge berechnet. Das soll lineare statt quadratische Skalierung mit der Kontextlänge ermöglichen, ohne fixe Pattern wie Sliding Windows zu erzwingen.
Subquadratic gibt für die Production Version auf Nvidia B200 GPUs einen 7,2 fachen Speedup bei 128K Tokens, 13,2 fach bei 256K, 23 fach bei 512K und 52,2 fach bei 1 Million Tokens an. Bei 12 Millionen Tokens nennt das Unternehmen eine rund 1000 fache Reduktion der Attention FLOPs gegenüber klassischer Dense Attention.
Third party verifizierte Werte: 95 Prozent auf RULER 128K, 65,9 Prozent auf MRCR v2 bei 1 Million Tokens und 81,8 Prozent auf SWE-Bench Verified. Im Forschungs-Aufbau erreicht SubQ auf MRCR v2 sogar 83 Prozent. RULER 128K ist nahe der Sättigungsgrenze, MRCR v2 differenziert deutlicher zwischen Frontier-Modellen.
CTO Alex Whedon hat öffentlich auf X bestätigt, dass SubQ Open Source Weights als Startpunkt für das Training nutzt. Das macht den im Marketing benutzten Begriff ground-up redesign erklärungsbedürftig. Was wirklich neu ist, ist der SSA-Layer auf bestehenden Modell-Weights, nicht das gesamte Basismodell.
Die Skepsis hat fünf Quellen: Bestätigung als Sparse Attention Finetune statt Neuentwicklung, inkonsistente Vergleichszahlen für Opus 4.6 zwischen Press-Release und Tech-Post, ein 17 Punkte Gap zwischen Research und Production auf MRCR v2, fehlender vollständiger Tech-Report mit Ablations und die Geschichte gescheiterter Vorgänger wie Mamba, RWKV, DSA und Kimi Linear.
Sub-quadratische Attention ist seit Jahren ein heisses Forschungsfeld. Mamba und RWKV sind State Space Modelle mit linearer Skalierung. DeepSeek Sparse Attention DSA und Kimi Linear sind in der Praxis quadratisch implementiert. Hyena, RetNet und BASED sind hybrid und behalten Dense Attention in zentralen Layern. Keiner hat bisher Frontier-Production ohne Hybrid-Komponente erreicht.
Drei Produkte starten am 5. Mai 2026 in Private Beta: SubQ API als OpenAI-kompatible Endpunkt-Schnittstelle, SubQ Code als CLI Coding Agent für ganze Codebasen und SubQ Search als kostenlose Long-Context Recherche-Alternative zu Perplexity und ChatGPT Search. Das volle 12 Millionen Token Context Window bleibt vorerst Enterprise-Partnern vorbehalten.
Subquadratic hat 29 Millionen Dollar Seed Funding bei einer Bewertung von 500 Millionen Dollar eingesammelt. Investoren sind Justin Mateen (Tinder Co-Founder), Javier Villamizar (ex SoftBank Vision Fund), Grant Gittlin und frühe Investoren in Anthropic, OpenAI, Stripe und Brex. Pricing ist offiziell nicht veröffentlicht. Subquadratic spricht von rund einem Fünftel der Kosten von Claude Opus oder GPT 5.5 bei vergleichbaren Workloads.
Bei statischen Wissensbasen, Codebasen und Dokumenten-Reviews könnte SubQ RAG für viele Use Cases ersetzen, weil grosse Datenmengen nativ in einen einzigen Kontext passen. Real-time Daten, schnell ändernde Informationen und user-spezifische Personalisierung brauchen weiterhin Retrieval. RAG verschwindet nicht, der Anwendungsbereich wird aber kleiner.
Aus NCA-Sicht nein. Bis ein vollständiger Tech-Report, unabhängige Benchmarks und idealerweise offene Architektur-Beschreibungen vorliegen, gehört SubQ in keinen kritischen Production-Pfad. Parallel testen in isolierten Vergleichs-Szenarien gegen etablierte Tools wie Claude Code ist sinnvoll. Production-Migration ist verfrüht.
SubQ ist closed source und tritt damit nicht direkt gegen offene Modelle wie Kimi K2.5 oder Qwen an. Subquadratic positioniert sich als kommerzieller API-Anbieter mit Architektur-Innovation. Wer DSGVO-konforme lokale Inferenz braucht, fährt mit Ollama plus Open Source Modellen bisher die solidere Strecke. Beide Welten können langfristig nebeneinander existieren.
Nein, SubQ ist closed source. Subquadratic Inc. mit Hauptsitz in Miami, Florida hat öffentlich erklärt, dass weder die Modell-Gewichte noch ein vollständiger Technical Report veröffentlicht werden sollen. Das Unternehmen positioniert sich als kommerzieller API-Anbieter. Ironisch: SubQ basiert laut CTO Alex Whedon selbst auf Open Source Weights von Kimi oder DeepSeek als Trainings-Startpunkt. Subquadratic nutzt also offene Forschung und gibt nichts zurück.
Wie du mit Open-Source-Tools wie PostHog und GrowthBook plus KI-Coding-Agents professionelles A/B Testing selbst umsetzt - ohne teure SaaS-Loesungen.
Vercels offenes Ökosystem aus modularen Skill Packages für KI Coding Agents wie Claude Code, OpenCode, Cursor und Codex. Mit npx skills CLI, skills.sh Directory und mehr als 18 unterstützten Agenten.
Was ist AGI? Definition, aktueller Stand 2026, die große Debatte ob wir AGI bereits erreicht haben und was das für Entwickler und Unternehmen bedeutet.
Microsofts Open-Source-Framework für Multi-Agent-Systeme – autonome KI-Agenten, die miteinander kommunizieren und komplexe Aufgaben lösen.
Le Chat von Mistral schlägt ChatGPT 2026 in vier Dimensionen: DSGVO und EU AI Act, Geschwindigkeit mit Flash Answers, Preis, Open Source Verfügbarkeit.
OpenAIs ChatGPT im Überblick: Von GPT-5.2 bis GPT-5.4 mit allen Modellen, Features und der Einordnung für Entwickler.
Agent Teams ist das neue Feature in Claude Code: Mehrere KI-Instanzen arbeiten parallel an einem Projekt, koordinieren sich autonom und lösen komplexe Aufgaben schneller als ein einzelner Agent.
Der dezentrale Marktplatz für Claude-Code-Erweiterungen: Plugins finden, installieren und eigene Marketplaces erstellen.
Claude Code Plugins bündeln Slash-Commands, Agents, Hooks und MCP-Server in installierbare Pakete. Mit dezentralen Git-Marketplaces und über 4.600 Community-Repositories ist ein ganzes Ökosystem entstanden.
Claude Code Remote Control, SSH und Cloud Sessions im Vergleich: So arbeiten Entwickler 2026 ortsunabhängig mit dem KI-Coding-Agent von Anthropic.
Was ist Claude Cowork 2026? Der KI-Agent von Anthropic für Desktop-Automatisierung. Funktionen, Anwendungsfälle und Einschränkungen im Überblick.
Claude Design ist Anthropics KI Design Tool mit Opus 4.7. Prototypen, Wireframes und Pitch Decks aus Text, mit direktem Handoff zu Claude Code.
Claude Security scannt Codebases nach Schwachstellen und generiert Patches. Public Beta seit April 2026, powered by Opus 4.7.
Claw Code ist ein quelloffenes KI-Coding-Agent-Framework in Python und Rust. Clean-Room-Rewrite der Claude Code Architektur mit 172k GitHub Stars.
Schritt-für-Schritt Installationsanleitung für den Open-Source KI-Assistenten Clawdbot auf macOS, Linux und Windows mit Provider-Anbindung und Sicherheitskonfiguration.
Mac Mini als Always-on-Server für Clawdbot: Hardware-Empfehlung, macOS-Optimierung, Headless-Betrieb und Sicherheitskonfiguration für das Self-Hosted Setup.
CodeRabbit ist das meistinstallierte KI-Code-Review-Tool auf GitHub mit \u00fcber 2 Mio. verbundenen Repos und 13 Mio. reviewten Pull Requests.
CodexBar zeigt KI-Token-Limits für Claude Code, Cursor und Codex direkt in der macOS Menu Bar. Open Source, MIT-Lizenz, 7.400+ Stars.
ComfyUI ist die leistungsst\u00e4rkste Open-Source-Workflow-Engine f\u00fcr KI-Bildgenerierung. Lokal, DSGVO-konform, unterst\u00fctzt Flux, SDXL, Video und mehr.
Framework für rollenbasierte KI-Agenten-Teams – definiere Rollen, Ziele und Backstories, und lass die Crew autonom zusammenarbeiten.
Cursor BugBot ist Cursors KI-Agent für automatisches Code-Review und Debugging direkt im Editor. Mit über 2 Millionen analysierten Pull Requests pro Monat und einer Resolution Rate von 70 % ist er 2026 ein zentrales Tool im Vibe-Coding-Workflow.
Dify ist die Open Source Plattform für visuelle Agentic AI Workflows und Production grade LLM Apps. NCA bewertet Funktionen, Stärken und Use Cases 2026.
Open Source Embedding Modelle 2026 für RAG: Qwen3, BGE M3, Nomic, Jina und der Klassiker all MiniLM im strukturierten Vergleich mit Auswahlkriterien.
Überblick über Embodied AI Foundation Models und Vision Language Action Modelle 2026 für Robotik und physische Agenten.
Everything Claude Code (ECC) ist das größte Open Source Skill und Agent Ökosystem für KI Coding Agents. 178.000 GitHub Stars, MIT Lizenz, läuft in Claude Code und OpenCode.
Googles cloudbasierte Entwicklungsumgebung für Full-Stack-Apps mit Gemini-KI: Prototyping per Prompt, App-Deployment per Klick und kostenlos für 3 Workspaces.
Gemini 3.5 Flash schlägt Gemini 3.1 Pro auf agentischen Benchmarks bei einem Drittel des Preises. Verfügbar seit 19. Mai 2026 über Antigravity 2.0 und die Gemini API.
Die Gemini Familie 2026 mit Gemini 3.5 Flash, Gemini Omni Flash, Gemini 3.1 Pro und Deep Think im Vergleich. Benchmarks, Preise und Use Cases.
Gemini Nano ist das kleinste Modell der Gemini Familie, lokal installiert in Chrome und auf Pixel Geräten. Mit DSGVO Bedenken durch Silent Install.
GitBook kombiniert technische Dokumentation mit KI Agent, MCP Server und Git Synchronisation. Überblick für Entwicklerteams und technische Autoren 2026.
GitHub MCP Server verbindet KI Agents direkt mit Repositories, Issues und CI/CD Pipelines. Installation und DSGVO Bewertung 2026.
Google Antigravity 2.0 bringt Desktop App, CLI, SDK und Managed Agents in der Gemini API. Powered by Gemini 3.5 Flash mit zwölffacher Geschwindigkeit.
Gemini Gems erstellen individuelle KI-Assistenten mit Live-Drive-Anbindung, 1M Token Kontext und Team-Sharing – die kostenlose ChatGPT-Custom-GPT-Alternative.
Google Stitch ist das KI-native Design-Tool aus Google Labs: UI per Text oder Sprache generieren, interaktiv prototypen und direkt in HTML/CSS exportieren.
Groq nutzt eigene LPU Chips für extrem schnelle Inferenz von Open Source Modellen wie Llama oder Qwen. Wann lohnt sich der Einsatz, wann ist Ollama oder vLLM die bessere Wahl?
Hermes Agent ist ein selbstlernender Open Source KI Agent von Nous Research mit persistentem Memory, autonomer Skill Erstellung und Multi Plattform Gateway für Telegram, Slack, WhatsApp und Discord.
Hugging Face ist die zentrale Plattform für Open Source KI Modelle mit 2 Millionen Modellen, Datasets, Spaces und Inference Endpoints. NCA Einordnung 2026.
Open Source Framework von HeyGen für lokales Video Rendering. HTML statt React, agent native für Claude Code und Cursor.
Andrej Karpathy ist einer der einflussreichsten LLM-Lehrer weltweit. Sein Wiki, seine GitHub-Projekte und YouTube-Kurse sind Pflichtlektüre für jeden KI-Entwickler.
Moonshot AIs Kimi Modellreihe: Von K2.5 bis K2.6 mit Agent Swarm, 1T MoE Parametern und Ollama Cloud. Alle Features und Benchmarks.
Open Source Framework für LLM Anwendungen mit Chains, Agents und LCEL Pipeline Syntax. Mit LangGraph für Orchestrierung, LangSmith für Evaluation und 1000 Integrationen.
LangChains Framework für zustandsbehaftete KI Workflows: Agenten als Graphen mit definierten Zuständen, Übergängen und Kontrollfluss.
Open Source Bibliothek für lokale LLM Inferenz in C/C++ ohne Abhängigkeiten. GGUF Format, Quantisierung, OpenAI kompatible API.
Open Source RAG Framework von Run-Llama für Indexing, Query Engines und agentenbasierte Document Processing. Im NCA Stack für DSGVO konforme Knowledge Bases mit Ollama.
KI-Modelle direkt auf iPhone und Android ausfuehren: Komplett offline, DSGVO-konform und ohne Cloud. Die besten Apps, Hardware-Anforderungen und Modelle fuer On-Device KI 2026.
LM Studio ist die GUI für lokale LLMs. Features, Ubuntu Installation und wann LM Studio die richtige Wahl ist.
Privacy first, local first, AGPL lizenziert. Logseq ist die DSGVO konforme Antwort auf Notion und Roam Research, mit Ollama Integration für lokale KI Workflows.
Wann DSGVO, Berufsgeheimnis und IP Schutz lokale KI erzwingen — die Szenarien mit Paragraphenbezug für Compliance Pflicht.
Wann sich lokale KI rechnet — Edge, Offline, Mass Processing, CI/CD und Kostenkontrolle als ROI Treiber 2026.
MemPalace ist ein Open Source KI Memory System von Milla Jovovich und Ben Sigman. Es speichert Konversationen lokal mit ChromaDB und SQLite, erreicht 96,6% auf LongMemEval und loest das Problem der KI Amnesie fuer Entwickler und Power User.
Open Source KI Prediction Engine mit GraphRAG und Multi Agent Simulation. Lade Dokumente hoch und simuliere Reaktionen tausender KI Agents.
Mistral AI ist Europas führender KI Anbieter aus Paris. Medium 3.5 mit 256K Kontext, Le Chat mit Work Mode und Vibe CLI Cloud Coding Agents im Überblick.
Mistral Connectors verbinden KI-Agents mit Enterprise-Daten per MCP-Protokoll. Reusable Tool-Integration in Mistral Studio 2026.
Das virale Social Network für KI-Agenten: Funktionsweise, Sicherheitsrisiken und die Debatte um autonome KI-Kommunikation.
Open-Source KI-Assistent mit 60.000+ GitHub Stars, der über WhatsApp, Telegram und andere Messaging-Apps gesteuert wird.
intfloat/multilingual-e5-large ist das stärkste kostenlose Embedding-Modell für RAG und Semantic Search. Self-hosted, MIT-Lizenz, 1024 Dimensionen, kein API-Key nötig.
Nano Banana 2 ist Googles neuester KI-Bildgenerator auf Basis von Gemini 3.1 Flash Image. Pro-Qualität bei Flash-Geschwindigkeit, kostenlos, mit 4K und Real-Time Web Search.
NVIDIA NemoClaw bringt Privacy- und Security-Guardrails zu autonomen KI-Agenten. Deploy mit einem Befehl, lokale Modelle via Nemotron, OpenShell-Controls.
Obsidian ist ein lokales, DSGVO-konformes Markdown-Wissenssystem mit nativer KI-Integration für Claude Code und Vibe Coding Workflows.
Ollama ist der führende Open-Source-Runner für lokale KI-Modelle. Mit über 150 Modellen, Subagenten-Support und integrierter Websuche macht Ollama KI-gestützte Entwicklung DSGVO-konform und offline-fähig.
Massively multilingual Zero Shot TTS Modell mit Voice Cloning und Voice Design. Apache 2.0, lokal lauffähig, 600 Sprachen Support.
Open WebUI ist eine browserbasierte Oberfläche für lokale KI-Modelle wie Ollama. DSGVO-konform, offline-fähig, erweiterbar durch RAG und Python-Tools – ideal für Entwickler und Unternehmen.
Der dreifach umbenannte KI-Agent – von ClawdBot über MoltBot zu OpenClaw. 100.000+ GitHub Stars, autonome Aufgabenausführung, und erhebliche Sicherheitsbedenken.
Spec-Driven Development Framework für AI Coding Assistants – eine Single Source of Truth für deterministische KI-Entwicklung.
Paperclip verwandelt einzelne KI Agenten in ein koordiniertes Unternehmen. Mit Org Charts, Budgetkontrolle und vollstaendigem Audit Log. Open Source und selbst gehostet.
Paperclip ist die Firma, Hermes Agent der Mitarbeiter mit Memory. Wann nutzt du welche Plattform, wo ergänzen sie sich, was passt zu deinem Stack.
Open Source macOS Automation Toolkit. CLI plus MCP Server für KI Agenten wie Codex, Claude Code und Cursor.
Claude Mythos Preview findet tausende Zero-Day-Schwachstellen in Betriebssystemen und Browsern. Was bedeutet das für Entwickler und DSGVO-konforme KI?
Qwen von Alibaba Cloud ist eine der stärksten Open-Source KI-Modellserien 2026. Qwen3, Qwen3-Coder, QwQ und Qwen3-Omni lokal nutzen – ohne API-Kosten, DSGVO-konform.
Der virale Marktplatz, auf dem KI-Agenten Menschen für reale Aufgaben buchen – per MCP-Call. Funktionsweise, Chancen und Risiken.
Ruflo koordiniert KI-Agenten-Swarms in Claude Code. Open Source, lokal betreibbar und DSGVO-konform. Die Enterprise-Alternative zu Cloud-basierten Agent-Plattformen.
Shannon analysiert Quellcode, findet Angriffsvektoren und f\u00fchrt echte Exploits aus \u2013 bevor sie in Produktion gelangen. Open Source, self-hosted, DSGVO-konform.
Das Sylius MCP Server Plugin macht Ihren Onlineshop für KI Agenten zugänglich. Produktsuche, Warenkorb und Checkout per natürlicher Sprache.
Symfony AI Mate verbindet KI Assistenten mit PHP Projekten per Model Context Protocol. Profiler, Logs, Services direkt im KI Workflow.
Canonical bringt mit Ubuntu 26.04 LTS und Ubuntu 26.10 lokale KI Modelle als Inference Snaps direkt ins Betriebssystem.
Unsloth beschleunigt Fine Tuning von LLMs um Faktor 2 bei 70 Prozent weniger VRAM. NCA bewertet LoRA, QLoRA, DoRA und Use Cases für 2026.
Vise Coding ist der strukturierte Gegenansatz zu Vibe Coding: KI erzeugt nur kleine, pr\u00fcfbare \u00c4nderungen mit Tests und Dokumentation f\u00fcr echten Produktionscode.
High Performance LLM Serving mit PagedAttention, Continuous Batching und OpenAI kompatibler API. Ideal für DSGVO konformes Self Hosting.
NCA migrierte den eigenen Chatbot von OpenAI auf Voyage AI voyage-3-m-exp. Erfahrungsbericht: bessere Retrieval Qualität, DSGVO-nähere Kontrolle und konkrete Migrationstipps.
Das Model Context Protocol (MCP) ist der offene Standard f\u00fcr die Verbindung von KI-Agenten mit externen Tools und Datenquellen. Von Anthropic entwickelt, von der Linux Foundation verwaltet.
Alibabas 6B Parameter Bildmodell unter Apache 2.0. Lokal auf 16GB VRAM, 8 Inference Steps, bilinguales Text Rendering.