A/B Testing mit KI – Automatisiertes Testing für Entwickler 2026
A/B Testing mit KI-Coding-Agents und PostHog oder GrowthBook: So setzt du automatisiertes Testing mit Vibe Coding um - DSGVO-konform und Open Source.
SubQ ist ein Large Language Model des US Startups Subquadratic mit Hauptsitz in Miami, Florida. Das Modell ist am 5. Mai 2026 aus dem Stealth Modus gekommen und setzt auf eine neue Attention-Architektur namens Subquadratic Sparse Attention (SSA), die laut Hersteller linear statt quadratisch mit der Kontextlänge skaliert. Im Production Modus bietet SubQ ein Context Window von 1 Million Tokens, im Forschungs-Modus reichen 12 Millionen Tokens für rund 9 Millionen Wörter oder 120 Bücher in einem einzigen Prompt.
Die zentrale Behauptung lautet: SubQ reduziert den Attention Compute bei 12 Millionen Tokens um Faktor 1000 gegenüber klassischen Transformer Modellen wie Claude Opus 4.7 oder Gemini 3.1 Pro. Bei 1 Million Tokens werben die Macher mit einem 52,2 fachen Geschwindigkeits-Vorteil gegenüber FlashAttention-2 auf Nvidia B200 GPUs. Auf dem RULER 128K Benchmark erreicht SubQ 95 Prozent Genauigkeit und liegt damit knapp vor Claude Opus 4.6 mit 94,8 Prozent.
Subquadratic Inc. wurde 2024 in Miami gegründet, hieß zunächst Aldea und arbeitete an Voice Models, bevor das Unternehmen auf Attention-Architektur pivotete. Das Team hat 29 Millionen Dollar Seed Funding bei einer Bewertung von 500 Millionen Dollar eingesammelt. Hinter dem Modell stehen 13 Personen, davon 11 PhDs mit Background bei Meta, Google, Oxford, Cambridge, ByteDance, Adobe und Microsoft. Geleitet wird das Unternehmen von CEO Justin Dangel und CTO Alex Whedon, dem ehemaligen Head of Generative AI bei TribeAI.
Wichtig vorab: SubQ ist closed source und wird auch nicht geöffnet. Subquadratic positioniert sich bewusst als kommerzieller API-Anbieter. Die Forschungs-Community reagiert geteilt auf den Launch. Ein Teil hält SSA für eine seriöse Weiterentwicklung von Sparse Attention, andere stellen die Zahlen fundamental in Frage. CTO Whedon hat selbst bestätigt, dass SubQ als Sparse Attention Finetune auf Open Source Weights aufsetzt. Das macht den Begriff ground-up redesign aus dem Marketing-Material erklärungsbedürftig. Wir ordnen weiter unten ein, was an SubQ wirklich neu ist und wo die offenen Fragen liegen.
NCA beobachtet seit Jahren, wie Teams sich an den quadratischen Kosten klassischer Attention die Zähne ausbeißen. In NCA Beratungsprojekten taucht das Thema regelmäßig auf, sobald Codebasen, Vertragssammlungen oder lange Agent-Sessions in einen einzigen Kontext sollen. Wir kennen die Stärken und Schwächen aktueller Long-Context Modelle, die Trade-offs zwischen RAG und nativer Kontext-Verarbeitung sowie die typischen Fehlermuster bei Multi-Hop-Retrieval. Genau dieses Wissen brauchst du, um ein Modell wie SubQ realistisch einordnen zu können statt nur den Marketing-Zahlen zu folgen.
Wenn dein Team über sub-quadratische Architekturen oder lange Kontexte diskutiert, helfen unsere Vibe Coding Consulting Sessions bei der ehrlichen Bewertung neuer Modelle. Bei lokaler Inferenz mit kontrollierten Kosten ist unser Ollama Stack mit Qwen und Llama der bewährte Weg. Für offene Modelle als Alternative zu SubQ bewerten wir Kimi von Moonshot und Qwen von Alibaba in echten Vibe Coding Projekten. Und wenn du Best Practices für KI gestützte Entwicklung suchst, findest du sie gebündelt in unserem Vibe Coding Best Practices Kompendium.
Finde das passende Angebot für dein Projekt
Hey! Ich bin CodeBot. Lass uns herausfinden, wie wir dein Projekt zum Fliegen bringen.
Was soll entstehen?
Klassische Transformer Modelle vergleichen jeden Token mit jedem anderen Token im Kontext. Verdoppelt sich der Input, vervierfacht sich der Rechenaufwand. Diese quadratische Skalierung ist der Grund, warum lange Kontexte teuer sind und Workarounds wie RAG, Chunking oder Multi-Agent-Orchestrierung nötig wurden.
SSA wählt einen anderen Weg. Für jeden Query-Token entscheidet das Modell inhaltsabhängig, welche Positionen im Kontext überhaupt relevant sind. Attention wird nur über diese ausgewählte Untermenge berechnet, der Rest fällt raus. Die Selektion ist dabei nicht fest verdrahtet wie bei Sliding Window oder fixed-pattern Sparse Attention, sondern lernt ihre Routing-Entscheidung aus dem Inhalt selbst.
Damit unterscheidet sich SSA bewusst von drei Vorgänger-Ansätzen. Fixed-pattern Sparse Attention wie Longformer oder BigBird entscheidet vor dem Look-up, wo geschaut wird, und verpasst Inhalte ausserhalb des Patterns. State Space Modelle wie Mamba und RWKV ersetzen Attention durch einen rekurrenten Zustand mit fester Kapazität, der weit zurückliegende Fakten verlieren kann. Hybrid-Architekturen mischen sub-quadratische Layer mit klassischer Dense Attention und behalten damit das quadratische Kostenproblem in den Dense-Layern.
Subquadratic trainiert SSA in drei Stufen: zunächst Pre-Training auf langen Sequenzen, dann Supervised Fine Tuning für Instruction Following und Code Generation, anschliessend Reinforcement Learning mit Fokus auf Long-Context-Retrieval. Das letzte Stadium soll typische Fehlermuster langer Kontexte adressieren: Modelle, die plausible Antworten aus nahen Tokens generieren statt aus relevanten Tokens weiter hinten im Kontext.
Die Speedup-Zahlen werden auf Nvidia B200 GPUs gegen FlashAttention-2 als Baseline gemessen, wobei FlashAttention-3 laut Hersteller auf B200 keinen weiteren Vorteil bringt. Mit wachsender Kontextlänge wächst auch der Vorsprung von SSA, weil klassische Dense Attention quadratisch teurer wird, während SSA nur linear teurer wird.
| Kontextlänge | SSA Speedup vs FlashAttention-2 | Attention FLOP Reduktion |
|---|
Der dramatischste Unterschied zwischen SubQ und der etablierten Frontier-Modell-Generation liegt nicht in der reinen Genauigkeit, sondern in der Grösse des Context Windows. Während GPT 5.5 mit 400.000 Tokens, Claude Opus 4.6 mit 1 Million Tokens und Gemini 3.1 Pro mit 2 Millionen Tokens arbeiten, behauptet SubQ im Forschungs-Aufbau 12 Millionen Tokens und das auf einer linear skalierenden Architektur statt der quadratischen Dense Attention der Konkurrenz.
Die folgende Übersicht zeigt die Context Window Grössen der wichtigsten Frontier-Modelle inklusive der zugrundeliegenden Architektur. Tabelle und Infografik darunter geben denselben Inhalt einmal textuell und einmal visuell aus, damit Screenreader-Nutzer und visuell orientierte Leser dieselbe Information bekommen. Der Sprung von 2 Millionen auf 12 Millionen Tokens entspricht einer Verfünffachung gegenüber dem bisherigen Maximum.
| Modell | Context Window | Architektur und Skalierung |
|---|---|---|
| GPT 5.5 | 400.000 Tokens | Dense Attention, quadratisch O(n²) |
| Claude Opus 4.6 | 1.000.000 Tokens | Dense Attention, quadratisch O(n²) |
| Gemini 3.1 Pro | 2.000.000 Tokens | Hybrid Attention, teilweise sub-quadratisch |
| SubQ Production | 1.000.000 Tokens | Sub-Quadratic Sparse Attention SSA, claimed linear |
| SubQ Research | 12.000.000 Tokens | Sub-Quadratic Sparse Attention SSA, claimed linear |
Subquadratic veröffentlicht drei Benchmark-Ergebnisse, die unterschiedlich aussagekräftig sind. RULER 128K testet Long-Context Retrieval und Reasoning. SubQ erreicht hier 95 Prozent, knapp vor Claude Opus 4.6 mit 94,8 Prozent. Allerdings ist RULER 128K bei diesen Werten nahezu gesättigt, das Spitzenfeld liegt eng beieinander.
MRCR v2 ist deutlich anspruchsvoller. Das Modell muss mehrere nicht-aneinandergrenzende Beweisstücke aus einem langen Kontext lokalisieren und kombinieren. SubQ erreicht in der Production Version 65,9 Prozent bei 1 Million Tokens, im Research-Aufbau 83 Prozent. Zum Vergleich: GPT 5.5 erreicht 74 Prozent, Claude Opus 4.6 wird im Tech-Post mit 78,3 Prozent angegeben, im Press Release allerdings nur mit 32,2 Prozent. Diese Diskrepanz in der eigenen Darstellung gibt Anlass zur Skepsis.
SWE-Bench Verified misst End to End Software Engineering an realen GitHub Issues. SubQ erreicht 81,8 Prozent. Damit liegt das Modell auf einem Level mit Gemini 3.1 Pro (80,6) und Claude Opus 4.6 (80,8), aber unter Claude Opus 4.7 (87,6). Für ein neues Modell ist das ein respektabler Wert, allerdings keine Krone des Frontiers.
Der Punkt, der für SubQ wirklich spricht, ist nicht Top-Accuracy sondern Kosten pro korrekter Antwort. Subquadratic gibt für RULER 128K rund 8 Dollar Compute-Kosten an, während Claude Opus dieselbe Genauigkeit mit rund 2600 Dollar erreichen soll. Wenn diese 300 fache Kostenreduktion bei gleicher Accuracy unabhängig validiert wird, ändert das die Ökonomie für viele Long-Context Workloads grundlegend.
Subquadratic startet nicht nur mit einem Modell, sondern direkt mit drei Produkten in der Private Beta. Alle drei nutzen denselben SSA-Kern, adressieren aber verschiedene Zielgruppen.
SubQ API ist der Developer-Einstieg. Sie bietet OpenAI-kompatible Endpunkte mit Tool Use Support und exponiert die 1 Million Token Production Version. Das volle 12 Millionen Token Research Window bleibt vorerst Enterprise-Partnern vorbehalten. Pricing ist offiziell nicht veröffentlicht, der Hersteller spricht von rund einem Fünftel der Kosten von Claude Opus oder GPT 5.5 bei vergleichbaren Workloads.
SubQ Code ist ein CLI Coding Agent, der ganze Codebasen in einen einzigen Kontext lädt. Subquadratic positioniert ihn auch als Long-Context Layer unter bestehenden Tools wie Claude Code, Codex oder Cursor. Die Behauptung lautet 25 Prozent niedrigere Kosten und 10 fach schnellere Code-Exploration. Das ist die am leichtesten testbare Aussage aus dem Launch.
SubQ Search ist ein Long-Context Recherche-Tool, das initial kostenlos für Endnutzer angeboten wird. Subquadratic nutzt es als Land and Expand Wedge gegen Perplexity und ChatGPT Search. Die Ökonomie funktioniert nur, weil Attention-Kosten bei 1 Million Tokens auf SSA dramatisch günstiger sein sollen als bei klassischen Anbietern.
Innerhalb weniger Stunden nach dem Launch spaltete sich die KI-Community. Auf der Skeptiker-Seite stehen mehrere konkrete Einwände, die jeder kennen sollte, der SubQ heute schon einsetzen will.
Erstens: SubQ ist ein Finetune. Der ehemalige OpenAI Engineer Will Depue postete früh nach dem Launch, dass SubQ fast sicher ein Sparse Attention Finetune auf Kimi oder DeepSeek sei. CTO Alex Whedon hat das auf X öffentlich bestätigt: Subquadratic verwendet Open Source Weights als Startpunkt für das Modell-Training. Das relativiert die im Marketing benutzte Beschreibung als ground-up redesign deutlich. Was wirklich neu ist, ist der SSA-Layer obendrauf, nicht das Basismodell.
Zweitens: Inkonsistente Zahlen. Die Opus 4.6 Werte für MRCR v2 unterscheiden sich zwischen Press-Release (32,2 Prozent) und eigenem Tech-Post (78,3 Prozent) um Faktor zwei. Welche Zahl stimmt, lässt sich von aussen nicht klären. Beides aus derselben Quelle ist ein Warnsignal.
Drittens: Gap zwischen Research und Production. MRCR v2 fällt von 83 Prozent im Forschungs-Aufbau auf 65,9 Prozent im verifizierten Production-Modell. Fast 20 Prozentpunkte Differenz auf einem zentralen Long-Context Benchmark. Das ist erklärungsbedürftig.
Viertens: Closed Weights, kein vollständiger Tech-Report. Bisher gibt es einen Blog-Post zur Architektur und third-party-verifizierte Benchmark-Werte für ausgewählte Tasks. Es gibt keinen vollständigen Technical Report mit Details zu Training, Daten und Ablations. Es gibt keine offenen Gewichte. Es gibt keine unabhängigen Reproduktionen ausserhalb der Firma.
Fünftens: Historischer Kontext mahnt zur Vorsicht. Mamba, RWKV, Hyena, RetNet, BASED, DeepSeek Sparse Attention und Kimi Linear haben alle ähnliche Versprechen gemacht. Alle haben lineare Skalierung in Theorie oder kleineren Modellen demonstriert. Keiner hat Frontier-Production erreicht, ohne in einer hybriden Konstellation zu landen, die die quadratischen Kosten ironischerweise wieder hereinholt. SubQ trägt die Beweislast aller Vorgänger.
Auf der anderen Seite: AI Researcher John Rysana hat Theranos-Vergleiche zurückgewiesen mit der Einschätzung, das Werk sei einfach Subquadratic Attention sauber gemacht, was sehr bedeutsam für Long-Context Workloads ist. Sparse Attention selbst ist seriöses Forschungsfeld. Das Team hinter Subquadratic hat substanzielle Background bei Meta, Google und einer Reihe Top Universitäten. Eine Version der Wahrheit könnte sein: SSA ist eine echte Verbesserung gegenüber bisherigen Sparse-Ansätzen, die 1000 fach Behauptung ist aber in dieser Form überzogen.
SubQ is either the biggest breakthrough since the Transformer or it is AI Theranos.
Sub-quadratische Attention ist seit Jahren eines der heissesten Forschungsfelder im Machine Learning. Eine ganze Reihe von Architekturen hat versucht, das quadratische Skalierungs-Problem zu lösen. Wer SubQ einordnen will, sollte diese Vorgeschichte kennen.
Mamba und RWKV sind State Space Modelle. Sie ersetzen Attention durch einen rekurrenten Zustand und erreichen damit lineare FLOP-Komplexität und konstanten Memory-Bedarf bei der Inferenz. Das funktioniert in kleinen und mittleren Modellen, fällt aber in Frontier-Skala bei Downstream-Benchmarks gegen klassische Attention zurück. Spezifische Fakten aus weit zurückliegenden Token-Positionen lassen sich nicht zuverlässig rekonstruieren.
DeepSeek Sparse Attention (DSA) versucht, die Attention-Kosten an einen Lightning Indexer auszulagern, der pro Query auswählt, welche Keys relevant sind. Eine LessWrong-Analyse vom Januar 2026 hat allerdings nachgewiesen, dass DSA in der praktischen Implementierung quadratisch bleibt, weil der Indexer selbst quadratisch über alle Query-Key-Paare scort. Die Komplexität wurde verschoben, nicht entfernt.
Kimi Linear liefert nach eigenem Paper eine 6,3 fache Inferenz-Geschwindigkeit bei 1 Million Tokens. Auch Kimi Linear ist in der ausgelieferten Implementierung praktisch quadratisch. Die LessWrong-Analyse ordnet diese Klasse von Architekturen sehr ehrlich ein als incremental improvement number 93595 to the transformer architecture. Sub-quadratisch im Marketing, quadratisch im Code, der wirklich produziert wird.
Hyena, RetNet, BASED und andere Hybrid-Architekturen mischen sub-quadratische Layer mit klassischer Dense Attention. Sie behalten die Stärken klassischer Attention, holen aber damit auch deren Kosten in den Dense-Layern wieder herein. Pure Sub-Quadratic ohne Hybrid-Hilfe ist in der Frontier-Production noch nicht eingetroffen.
Vor diesem Hintergrund ist SubQ nicht der erste Versuch, sondern der bisher selbstbewussteste. Die Behauptung, fully sub-quadratisch ohne Hybrid-Komponenten und auf Frontier-Niveau zu sein, ist deutlich grösser als alles, was Vorgänger versprochen haben. Die Beweislast liegt deshalb auch entsprechend hoch.
Selbst wenn die 1000 fach Behauptung beim 12 Millionen Token Research-Modell auf 50 fach beim 1 Millionen Token Production-Modell schrumpft, wäre das ökonomisch noch immer relevant. Drei Workload-Klassen profitieren am offensichtlichsten.
Codebase-zentrierte Entwicklung. Eine mittelgrosse Codebasis mit Tests und Dokumentation passt heute kaum in 1 Million Tokens. Bei 12 Millionen Tokens wäre der gesamte Repo-Inhalt in einem einzigen Prompt verfügbar, ohne dass RAG-Pipelines die richtigen Dateien selektieren müssen. Das passt zur Positionierung von SubQ Code als CLI-Agent, der ganze Repos lädt.
Vertrags und Dokumenten-Workflows. Komplexe Verträge mit Querverweisen, Ausnahmen und Definitionen über mehrere Seiten hinweg sind klassische Multi-Hop-Retrieval Aufgaben. Bei kleinem Kontext fehlt regelmässig der entscheidende Querverweis. Lange Kontexte ohne RAG-Krücken könnten hier echten Wert bringen, wenn Genauigkeit und Kosten passen.
Persistente Agent-Sessions. Lange Coding-Sessions mit Plan, Zwischenständen, Reviews und Regressionen profitieren davon, wenn keine Information durch Kontext-Boundaries verloren geht. Aktuell rettet man Kontext über externes State-Management, persistente Memory-Systeme oder Multi-Agent-Architekturen wie Paperclip. Lange native Kontexte könnten Teile dieser Komplexität entfernen.
Was SubQ nicht ersetzt: schnell ändernde Daten, user-spezifische Personalisierung und Echtzeit-Recherche brauchen weiterhin Retrieval. RAG verschwindet nicht, der Use Case wird aber kleiner. Wer heute schon mit langen Kontexten arbeitet, kennt die Trade-offs zwischen Native-Kontext und RAG. SubQ verschiebt diese Balance, ersetzt sie aber nicht.
Bevor produktive Workloads umziehen, sollten unabhängige Benchmarks vorliegen, die SLA-relevante Faktoren wie Output Quality unter Last, Tail Latency und Halluzinationsrate bei wirklich grossen Kontexten messen. Marketing-Benchmarks sind ein Startpunkt, kein Endpunkt.
NCA setzt SubQ in keinem Production-Stack ein. Unser bewährter Stack basiert auf Ollama mit Qwen und Llama für lokale Inferenz, Claude Code und OpenCode für KI-gestützte Entwicklung sowie llama.cpp als Inferenz-Backend wenn es klein und schnell sein muss. Wer mit uns über lange Kontexte spricht, bekommt eine ehrliche Einordnung der heute verfügbaren Trade-offs zwischen Modellgrösse, Kontextfenster und Kosten.
Drei Empfehlungen, falls SubQ für dein Projekt in Frage kommt. Erstens warten und beobachten. Bis ein vollständiger Tech-Report, unabhängige Benchmarks und idealerweise eine offene Architektur-Beschreibung vorliegen, gehört SubQ in keinen kritischen Production-Pfad. Bei Projekt-Rettungs-Engagements sehen wir regelmässig, was passiert, wenn Teams zu früh auf Frontier-Versprechen setzen.
Zweitens parallel testen. SubQ Search ist kostenlos und bietet sich für Vergleichs-Recherchen an. SubQ Code lässt sich in einem isolierten Test-Repo gegen Claude Code messen. Beides ohne Production-Daten, beides mit klaren Erfolgs-Kriterien. Wenn du eine strukturierte Vergleichs-Methodik brauchst, ist unsere Vibe Coding Best Practices Sammlung der Startpunkt.
Drittens DSGVO und Governance früh klären. SubQ läuft als geschlossene Cloud-API aus den USA. Wer in Deutschland mit sensiblen Daten arbeitet, sollte vor jedem Pilot die DSGVO-Folgen klären. Unsere Vibe Coding Datenschutz und DSGVO Beratung sowie KI Assistenten selbst hosten sind die NCA-Defaults für regulierte Branchen.
NCA bewertet Tools wie SubQ kritisch und ehrlich. Wir empfehlen nichts, was wir selbst nicht in Production-Bedingungen oder strukturierten Beratungsprojekten getestet haben. Sobald unabhängige Benchmarks vorliegen, aktualisieren wir diese Einordnung.
Roland Golla ist Entwickler aus Leidenschaft – seit über 20 Jahren. Er hat hunderte Projekte begleitet, von Legacy-Refactoring bis KI-Integration. Bei Vibe Coding verbindet er das Beste aus beiden Welten: Die Geschwindigkeit von KI-generiertem Code mit der Qualität professioneller Softwareentwicklung. Kein Bullshit, keine Agentur-Floskeln – direkte Hilfe von jemandem, der selbst täglich im Code steckt.
Die zwölf häufigsten Fragen rund um SubQ, Subquadratic Sparse Attention und das 12 Millionen Token Context Window aus NCA Beratungsprojekten und der ersten öffentlichen Diskussion seit dem Launch.
SubQ ist ein Large Language Model des Miami Startups Subquadratic, das am 5. Mai 2026 aus dem Stealth Modus gekommen ist. Das Modell setzt auf eine neue Attention-Architektur namens Subquadratic Sparse Attention und bietet ein Context Window von 1 Million Tokens in der Production-API sowie 12 Millionen Tokens im Forschungs-Aufbau.
SSA wählt für jeden Query-Token inhaltsabhängig aus, welche Positionen im Kontext attentiert werden. Statt aller Token-Paare wird nur eine kleine relevante Untermenge berechnet. Das soll lineare statt quadratische Skalierung mit der Kontextlänge ermöglichen, ohne fixe Pattern wie Sliding Windows zu erzwingen.
Subquadratic gibt für die Production Version auf Nvidia B200 GPUs einen 7,2 fachen Speedup bei 128K Tokens, 13,2 fach bei 256K, 23 fach bei 512K und 52,2 fach bei 1 Million Tokens an. Bei 12 Millionen Tokens nennt das Unternehmen eine rund 1000 fache Reduktion der Attention FLOPs gegenüber klassischer Dense Attention.
Third party verifizierte Werte: 95 Prozent auf RULER 128K, 65,9 Prozent auf MRCR v2 bei 1 Million Tokens und 81,8 Prozent auf SWE-Bench Verified. Im Forschungs-Aufbau erreicht SubQ auf MRCR v2 sogar 83 Prozent. RULER 128K ist nahe der Sättigungsgrenze, MRCR v2 differenziert deutlicher zwischen Frontier-Modellen.
CTO Alex Whedon hat öffentlich auf X bestätigt, dass SubQ Open Source Weights als Startpunkt für das Training nutzt. Das macht den im Marketing benutzten Begriff ground-up redesign erklärungsbedürftig. Was wirklich neu ist, ist der SSA-Layer auf bestehenden Modell-Weights, nicht das gesamte Basismodell.
Die Skepsis hat fünf Quellen: Bestätigung als Sparse Attention Finetune statt Neuentwicklung, inkonsistente Vergleichszahlen für Opus 4.6 zwischen Press-Release und Tech-Post, ein 17 Punkte Gap zwischen Research und Production auf MRCR v2, fehlender vollständiger Tech-Report mit Ablations und die Geschichte gescheiterter Vorgänger wie Mamba, RWKV, DSA und Kimi Linear.
Sub-quadratische Attention ist seit Jahren ein heisses Forschungsfeld. Mamba und RWKV sind State Space Modelle mit linearer Skalierung. DeepSeek Sparse Attention DSA und Kimi Linear sind in der Praxis quadratisch implementiert. Hyena, RetNet und BASED sind hybrid und behalten Dense Attention in zentralen Layern. Keiner hat bisher Frontier-Production ohne Hybrid-Komponente erreicht.
Drei Produkte starten am 5. Mai 2026 in Private Beta: SubQ API als OpenAI-kompatible Endpunkt-Schnittstelle, SubQ Code als CLI Coding Agent für ganze Codebasen und SubQ Search als kostenlose Long-Context Recherche-Alternative zu Perplexity und ChatGPT Search. Das volle 12 Millionen Token Context Window bleibt vorerst Enterprise-Partnern vorbehalten.
Subquadratic hat 29 Millionen Dollar Seed Funding bei einer Bewertung von 500 Millionen Dollar eingesammelt. Investoren sind Justin Mateen (Tinder Co-Founder), Javier Villamizar (ex SoftBank Vision Fund), Grant Gittlin und frühe Investoren in Anthropic, OpenAI, Stripe und Brex. Pricing ist offiziell nicht veröffentlicht. Subquadratic spricht von rund einem Fünftel der Kosten von Claude Opus oder GPT 5.5 bei vergleichbaren Workloads.
Bei statischen Wissensbasen, Codebasen und Dokumenten-Reviews könnte SubQ RAG für viele Use Cases ersetzen, weil grosse Datenmengen nativ in einen einzigen Kontext passen. Real-time Daten, schnell ändernde Informationen und user-spezifische Personalisierung brauchen weiterhin Retrieval. RAG verschwindet nicht, der Anwendungsbereich wird aber kleiner.
Aus NCA-Sicht nein. Bis ein vollständiger Tech-Report, unabhängige Benchmarks und idealerweise offene Architektur-Beschreibungen vorliegen, gehört SubQ in keinen kritischen Production-Pfad. Parallel testen in isolierten Vergleichs-Szenarien gegen etablierte Tools wie Claude Code ist sinnvoll. Production-Migration ist verfrüht.
SubQ ist closed source und tritt damit nicht direkt gegen offene Modelle wie Kimi K2.5 oder Qwen an. Subquadratic positioniert sich als kommerzieller API-Anbieter mit Architektur-Innovation. Wer DSGVO-konforme lokale Inferenz braucht, fährt mit Ollama plus Open Source Modellen bisher die solidere Strecke. Beide Welten können langfristig nebeneinander existieren.
Nein, SubQ ist closed source. Subquadratic Inc. mit Hauptsitz in Miami, Florida hat öffentlich erklärt, dass weder die Modell-Gewichte noch ein vollständiger Technical Report veröffentlicht werden sollen. Das Unternehmen positioniert sich als kommerzieller API-Anbieter. Ironisch: SubQ basiert laut CTO Alex Whedon selbst auf Open Source Weights von Kimi oder DeepSeek als Trainings-Startpunkt. Subquadratic nutzt also offene Forschung und gibt nichts zurück.
A/B Testing mit KI-Coding-Agents und PostHog oder GrowthBook: So setzt du automatisiertes Testing mit Vibe Coding um - DSGVO-konform und Open Source.
Agent Skills 2026: Vercels Ökosystem für KI Coding Agents. Modulare Skill Packages für Claude Code, OpenCode, Cursor und 18 weitere Agents. Mit npx skills CLI.
AGI (Artificial General Intelligence) bezeichnet KI-Systeme mit menschenähnlicher Intelligenz. Definition, aktueller Stand, Kontroversen und was AGI für Entwickler bedeutet.
AutoGen ist Microsofts Open-Source-Framework für Multi-Agent-Systeme. Mehrere KI-Agenten arbeiten autonom zusammen und lösen komplexe Aufgaben durch Konversation.
ChatGPT und die GPT-5-Serie: GPT-5.2, 5.3 Instant und 5.4 mit Features, Benchmarks und Einordnung für Entwickler 2026.
Claude Agent Teams ermöglicht parallele KI-Agenten in Claude Code. Aktivierung, Setup, Anwendungsfälle und Best Practices für Entwickler 2026.
Der Claude Code Plugin Marketplace ist ein dezentrales, Git-basiertes System für KI-Entwickler-Plugins. So finden, installieren und erstellen Sie eigene Marketplaces 2026.
Claude Code Plugins bündeln Slash-Commands, Agents, Hooks und MCP-Server in teilbare Pakete. So erweitern Entwickler ihr KI-Coding-Tool 2026.
Claude Code Remote Control, SSH-Zugriff und Cloud Sessions: So steuern Sie Ihre KI-Coding-Sessions von unterwegs. Setup, Sicherheit und Vergleich 2026.
Was ist Claude Cowork 2026? Der KI-Agent von Anthropic für Desktop-Automatisierung. Funktionen, Anwendungsfälle und Einschränkungen im Überblick.
Claude Design ist Anthropics KI Design Tool auf Opus 4.7 Basis. Prototypen, Wireframes und Pitch Decks aus Text, Handoff zu Claude Code.
Claude Security ist Anthropics Vulnerability Scanner in Public Beta auf Opus 4.7. Was er kann, wer ihn nutzen darf und wie er funktioniert.
Claw Code ist ein quelloffenes KI-Coding-Agent-Framework in Python und Rust. Clean-Room-Rewrite der Claude Code Architektur. 172k GitHub Stars. Jetzt mehr erfahren.
Clawdbot installieren: Komplette Anleitung für macOS, Linux und Windows (WSL2). Node.js Setup, Provider-Anbindung, Sicherheitskonfiguration und Best Practices für den Always-on-Betrieb.
Clawdbot auf Mac Mini einrichten: Komplette Anleitung für den Always-on KI-Assistenten. Hardware-Auswahl, macOS Headless-Konfiguration, Energy Saver, SSH-Zugang, Docker-Isolation und Best Practices 2026.
CodeRabbit reviewt Pull Requests automatisch mit KI und 40+ Lintern. So nutzen PHP-Teams das Tool DSGVO-konform in CI/CD-Pipelines.
CodexBar zeigt Token-Limits für Claude Code, Cursor und Codex direkt im macOS Menu Bar. Kostenlos, MIT-lizenziert, 7.400+ GitHub Stars.
ComfyUI ist eine Open-Source-Engine f\u00fcr KI-Bildgenerierung mit node-basiertem Workflow-Editor. Lokal, DSGVO-konform, unterst\u00fctzt Flux, SDXL und mehr.
CrewAI ist ein Framework für rollenbasierte Multi-Agent-Systeme. Definiere Agenten mit Rollen, Zielen und Backstories – sie arbeiten autonom als Team zusammen.
Cursor BugBot ist der KI-Debugging-Agent für Vibe Coding. Über 2 Mio. PRs/Monat, 70 % Resolution Rate. Wie er funktioniert und wann er hilft.
Embodied AI und Vision Language Action Modelle 2026: HY-Embodied-0.5, Pi Zero, NORA, OpenVLA, Gemini Robotics. KI Foundation Models für Roboter im Vergleich.
Firebase Studio ist Googles cloudbasierte KI-Entwicklungsumgebung für Full-Stack-Apps. Prototyping per Prompt, Gemini-KI, kostenlos nutzbar. NCA Glossar 2026.
GitBook ist die KI gestützte Dokumentationsplattform mit Git Workflows, MCP Server und Agent. Funktionen, Preise und DSGVO Bewertung für Entwicklerteams.
GitHub MCP Server verbindet KI Agents direkt mit Repositories, Issues und CI/CD Pipelines. Installation und DSGVO Bewertung für Entwickler 2026.
Google Antigravity 2026: Die revolutionäre Agent-First IDE mit autonomen KI-Agenten. Powered by Gemini 3 Pro. Kostenlos für Entwickler. Installation, Features und Vergleich.
Google Gemini Gems sind anpassbare KI-Assistenten mit 1-Million-Token-Kontext und Live-Google-Drive-Sync. Vergleich mit ChatGPT Custom GPTs.
Google Stitch: KI-natives Vibe Design Tool – UI aus Text und Sprache generieren, prototypen und direkt in Code exportieren. Kostenlos in Google Labs.
Groq AI im Test 2026: LPU Hardware, Geschwindigkeit, DSGVO Bewertung und wann sich Groq für deutsche Unternehmen lohnt.
Hermes Agent von Nous Research: selbstlernender Open Source KI Agent mit Memory, Skills System und MCP. Installation, Vergleich und DSGVO Bewertung.
Das Karpathy LLM Wiki erklärt Andrej Karpathys wichtigste LLM-Ressourcen für Entwickler: nanoGPT, LLM.c, makemore und das LLM OS Konzept kompakt erklärt.
Kimi von Moonshot AI: MoE Modell mit 1T Parametern, Agent Swarm, Ollama Cloud und 256K Kontext. K2.5 und K2.6 Features, Benchmarks und Einsatz.
LangChain Open Source Framework für LLM Anwendungen 2026: LCEL Pipelines, Agents, LangGraph Integration, LangSmith Evaluation. Beratung von NCA für DSGVO konforme Setups.
LangGraph ist LangChains Framework für Multi Agent Workflows. Graphen definieren Kontrollfluss, Zyklen und Entscheidungslogik für Production KI Systeme.
llama.cpp ermöglicht lokale KI Inferenz ohne Cloud Abhängigkeit. GGUF Modelle, OpenAI API, Quantisierung und DSGVO konformer Betrieb im Überblick.
LlamaIndex Open Source RAG Framework für Document Agents 2026: Indexing, Retrieval, agentic Workflows. Mit Ollama im DSGVO konformen NCA Stack. Beratung von Experten.
LLM lokal auf dem Smartphone nutzen: Die besten Apps fuer Android und iOS, Hardware Anforderungen und DSGVO Vorteile von On Device KI 2026.
Logseq ist das privacy first Open Source Wissensmanagement Tool. Local first, DSGVO konform und ideal für KI Workflows mit Ollama oder eigenen Modellen.
MemPalace von Milla Jovovich ist das Open Source KI Memory System gegen KI Amnesie. 96,6% LongMemEval, lokal, DSGVO konform. NCA erklaert Setup und Einsatz.
Mistral AI 2026: Medium 3.5 mit 256K Kontext, Le Chat Work Mode, Vibe CLI Cloud Agents und Connectors. Europäische KI mit echter Datensouveränität.
Mistral Connectors verbinden KI-Agents mit Enterprise-Daten per MCP-Protokoll. So funktioniert reusable Tool-Integration in Mistral Studio 2026.
Was ist Moltbook? Das virale Social Network für KI-Agenten – Funktionsweise, Sicherheitslücken und warum Experten davor warnen. Alles Wichtige kompakt erklärt.
MoltBot heißt mittlerweile OpenClaw und hat über 247.000 GitHub Stars. Der virale Open Source KI Agent im Überblick: Funktionen, Versionen, Sicherheit.
intfloat/multilingual-e5-large auf HuggingFace: MIT-lizenziertes Embedding-Modell für 100 Sprachen. Self-hosted, kostenlos, DSGVO-konform. Vergleich mit voyage-3-m-exp 2026.
Nano Banana 2 (Gemini 3.1 Flash Image): Googles schnellster KI-Bildgenerator mit 4K, Text-Rendering und Web-Grounding. Jetzt kostenlos verfügbar.
NVIDIA NemoClaw erweitert OpenClaw um Privacy- und Security-Controls. Lokale KI-Modelle via Nemotron, OpenShell-Guardrails, Deploy mit einem Befehl.
Obsidian mit KI und künstlicher Intelligenz: lokales PKM-Tool, DSGVO-konform, Obsidian Skills auf GitHub für Claude Code. NCA erklärt den Setup.
Ollama ermöglicht lokale KI-Modelle ohne Cloud. Subagenten, Websuche, Vibe Coding und DSGVO-konform. Alle Features, Modelle und Setup-Tipps 2026.
Open WebUI ist das führende Self-Hosted Interface für lokale KI-Modelle. DSGVO-konform, Docker-Setup, RAG, Multimodell – so richtest du es 2026 ein.
OpenClaw ist ein autonomer KI-Agent mit 100.000+ GitHub Stars. Ursprünglich ClawdBot, dann MoltBot – jetzt OpenClaw. Messaging-Integration, Skills-System und Sicherheitsrisiken erklärt.
OpenSpec ist ein leichtgewichtiges Framework für Spec-Driven Development mit KI-Coding-Assistenten. Single Source of Truth für Claude Code, Cursor und Copilot.
Paperclip ist die Open Source Plattform fuer KI Agenten Teams 2026. Mit Org Charts, Budgetkontrolle und Audit Log. Selbst gehostet und DSGVO konform.
Project Glasswing ist Anthropics Initiative, mit Claude Mythos Preview Zero-Day-Schwachstellen in kritischer Software zu finden. Was steckt dahinter?
Qwen ist Alibabas Open-Source KI-Modellfamilie mit Qwen3, Qwen3-Coder und Qwen3-Omni. Apache 2.0, lokal nutzbar, DSGVO-freundlich.
RentAHuman.ai ist der Marktplatz, auf dem KI-Agenten Menschen für physische Aufgaben buchen. Funktionsweise, MCP-Integration, Risiken und Chancen 2026.
Ruflo ist die führende Agent-Orchestrierungsplattform für Claude Code. Multi-Agent-Swarms, 60+ Agenten, WASM-Embeddings, lokal oder On-Premise einsetzbar.
Shannon ist ein autonomer KI-Pentester f\u00fcr Web-Apps und APIs. White-Box-Analyse, echte Exploits, DSGVO-konform on-premise einsetzbar. NCA-Beratung.
Sylius MCP Server Plugin verbindet KI Agenten mit Ihrem Onlineshop. Produktsuche, Checkout und Bestellungen per Conversational Commerce.
Symfony AI Mate ist ein MCP Server für KI gestützte PHP Entwicklung. Installation, Extensions, Claude Code Integration und Vibe Coding mit Symfony.
Ubuntu 26.04 LTS bringt lokale KI mit Inference Snaps für Qwen, DeepSeek und Gemma. Ubuntu 26.10 startet Opt in Preview im Oktober 2026.
Vibe Coding macht Schulden. Vise Coding l\u00f6st das. NCA Experten erkl\u00e4ren, wie AI Code mit Guardrails, Tests und Doku echten Produktionscode liefert. Jetzt beraten lassen.
vLLM ist die Open Source Inference Engine für produktives LLM Serving: PagedAttention, bis zu 24x Throughput, DSGVO konformes Self Hosting. Jetzt erklärt.
Wie NCA OpenAI Embeddings durch Voyage AI voyage-3-m-exp auf HuggingFace ersetzte. Erfahrungsbericht, Benchmarks und Migrationsanleitung 2026.
Web MCP verbindet KI-Agenten \u00fcber Streamable HTTP mit externen Tools und Datenquellen. Alles \u00fcber Remote MCP Server, Sicherheit und Einsatz 2026.