Für einen Großteil des Jahres 2025 dominierte China die Entwicklung hochmoderner Open-Weight-Sprachmodelle. Labore wie Qwen, DeepSeek und Baidu von Alibaba verfügen über schnell weiterentwickelte Mixture-of-Experts (MoE)-Modelle, oft mit freizügigen Lizenzen und überlegener Leistung. Jetzt stellt sich das US-amerikanische Unternehmen Arcee AI mit seiner neuen „Trinity“-Familie offener Modelle direkt gegen diesen Trend.
Der Aufstieg der offenen KI in China
Chinesische Forschungslabore haben aufgrund ihrer freizügigen Lizenzierung und Benchmark-Leistung die Führung bei der Entwicklung groß angelegter, offener MoE-Modelle übernommen. OpenAI hat ein Open-Source-LLM veröffentlicht, dessen Einführung jedoch aufgrund leistungsstärkerer Alternativen langsam war. Dieser Trend wirft Fragen über die Wettbewerbsfähigkeit der USA im Bereich Open-Source-KI auf und warum die größten Fortschritte im Ausland erzielt werden.
Die Trinity-Modelle von Arcee AI: Eine in den USA gebaute Alternative
Heute gab Arcee AI die Veröffentlichung von Trinity Mini und Trinity Nano Preview bekannt, den ersten beiden Modellen seiner neuen „Trinity“-Familie. Diese Modelle werden in den USA unter einer unternehmensfreundlichen Apache 2.0-Lizenz vollständig trainiert. Benutzer können Mini in einem Chatbot auf chat.arcee.ai testen und Entwickler können den Code von Hugging Face zur Änderung und Feinabstimmung herunterladen.
Diese Veröffentlichungen sind zwar kleiner als die größten Modelle, stellen aber den ersten Versuch der USA dar, durchgängige Open-Weight-Modelle in großem Maßstab zu erstellen, die von Grund auf auf der amerikanischen Infrastruktur mit einem in den USA kuratierten Datensatz trainiert wurden. Lucas Atkins, CTO von Arcee, erklärt: „Ich verspüre eine Kombination aus extremem Stolz auf mein Team und lähmender Erschöpfung, daher fällt es mir schwer, in Worte zu fassen, wie aufgeregt ich bin, diese Modelle herauszubringen.“
Ein drittes Modell, Trinity Large, befindet sich bereits im Training: ein 420B-Parametermodell mit 13B aktiven Parametern pro Token, dessen Einführung im Januar 2026 geplant ist.
Der technische Vorsprung von Trinity: AFMoE-Architektur
Die Trinity-Modelle von Arcee nutzen eine neue AFMoE-Architektur (Attention-First Mixture-of-Experts). Dieses Design kombiniert globale Sparsity-, lokale/globale Aufmerksamkeits- und Gated-Attention-Techniken, um Stabilität und Effizienz im großen Maßstab zu verbessern.
AFMoE unterscheidet sich von herkömmlichen MoE-Modellen dadurch, dass bei der Entscheidung, welcher „Experte“ konsultiert werden soll, ein sanfteres Sigmoid-Routing anstelle einfacher Rankings verwendet wird, was eine elegantere Mischung mehrerer Perspektiven ermöglicht. Der „Aufmerksamkeit zuerst“-Ansatz bedeutet, dass sich das Modell stark darauf konzentriert, wie es den verschiedenen Teilen des Gesprächs Aufmerksamkeit schenkt, wodurch das Denken in langen Kontexten verbessert wird.
Trinity Mini ist ein 26B-Parametermodell mit 3B aktiven pro Token, das für Hochdurchsatz-Argumentation, Funktionsaufrufe und Werkzeugnutzung konzipiert ist. Trinity Nano Preview ist ein 6B-Parametermodell mit etwa 800 Millionen aktiven, nicht einbettenden Parametern – ein experimentelleres, chatfokussiertes Modell mit einer stärkeren Persönlichkeit, aber geringerer Argumentationsrobustheit.
Leistung und Zugriff
Trinity Mini ist bei allen Argumentationsaufgaben mit größeren Modellen konkurrenzfähig und übertrifft gpt-oss beim SimpleQA-Benchmark, MMLU und BFCL V3:
- MMLU (Zero-Shot): 84,95
- Mathe-500: 92,10
- GPQA-Diamant: 58,55
- BFCL V3: 59,67
Das Modell erreicht einen Durchsatz von über 200 Token pro Sekunde mit einer E2E-Latenz von weniger als drei Sekunden und ist somit für interaktive Anwendungen geeignet. Beide Modelle werden unter der Apache 2.0-Lizenz veröffentlicht und sind über Hugging Face, OpenRouter und die Website von Arcee verfügbar. Der API-Preis für Trinity Mini über OpenRouter beträgt 0,045 US-Dollar pro Million Eingabe-Tokens und 0,15 US-Dollar pro Million Ausgabe-Tokens.
Partnerschaften für Daten und Infrastruktur
Der Erfolg von Arcee beruht auf strategischen Partnerschaften. DatologyAI, ein Startup zur Datenkuration, stellt hochwertige Trainingsdaten sicher, indem es Datensätze filtert, dedupliziert und verbessert, um rechtliche Probleme und Verzerrungen zu vermeiden. DatologyAI hat für Trinity einen Lehrplan mit 10 Billionen Token erstellt, der allgemeine Daten, hochwertigen Text und MINT-lastiges Material umfasst.
Prime Intellect stellt die Infrastruktur mit 512 H200-GPUs in einer benutzerdefinierten bf16-Pipeline für das Training von Trinity Mini und Nano bereit. Sie hosten auch den 2048 B300 GPU-Cluster für das kommende Trinity Large.
Die Zukunft der US-amerikanischen KI: Modellsouveränität
Arcees Vorstoß zur vollständigen Vorschulung spiegelt eine umfassendere Strategie wider: die Kontrolle über die gesamte Trainingsschleife für Compliance und Kontrolle, insbesondere da KI-Systeme autonomer werden. Das Unternehmen argumentiert, dass die Kontrolle der Gewichts- und Trainingspipeline für die Entwicklung zuverlässiger, anpassungsfähiger KI-Produkte von entscheidender Bedeutung ist.
Trinity Large, ein MoE-Modell mit 420B-Parametern, soll im Januar 2026 auf den Markt kommen. Im Erfolgsfall wäre es eines der wenigen vollständig offenen, in den USA trainierten Modelle im Grenzmaßstab und würde Arcee als Schlüsselakteur im offenen Ökosystem positionieren.
Arcees Trinity-Start signalisiert einen erneuten Versuch, Boden für eine transparente, von den USA kontrollierte Modellentwicklung zurückzugewinnen, und zeigt, dass kleinere Unternehmen immer noch auf offene Weise Grenzen überschreiten können.
