Fast jede Woche stellt mir jemand dieselbe Frage: „Welches KI-Modell sollten wir nutzen?” Ich arbeite nicht in einem Forschungslabor, also betrachte ich diese Modelle so, wie die meisten von euch es tun — von außen, mit einem Budget, einem Compliance-Team und echten Daten, die ich nicht leaken darf. In diesem Blogbeitrag gehe ich die neuesten KI-Modelle im Juni 2026 durch und sortiere sie nach Preis, Leistungsfähigkeit und Anwendungsfall. Ich mache außerdem etwas, das die meisten Vergleichsbeiträge auslassen: Ich schaue mir an, was das für europäische Unternehmen und Datensouveränität bedeutet. Am Ende sage ich dir ganz offen, was ich wählen würde.
Eine kurze Vorwarnung zuerst: Das ist das sich am schnellsten verändernde Thema, über das ich je geschrieben habe. Fast jedes Modell unten wurde zwischen April und Juni 2026 veröffentlicht. Behandle das also als Momentaufnahme, nicht als Gesetz. Die Denkweise wird länger halten als die Modellnamen.
Inhaltsverzeichnis
Wer sind die Akteure im Juni 2026?
Es hilft, die Modelle danach zu gruppieren, woher sie kommen. Das ist keine Politik — für ein europäisches Unternehmen entscheidet die Herkunft eines Modells viel über Preis, Lizenzierung und Datenkontrolle.
Vereinigte Staaten — die Frontier-Labs.
– OpenAI bringt GPT-5.5 (April 2026) als Flaggschiff, mit GPT-5.5-pro darüber und dem günstigeren GPT-5.2 darunter.
– Anthropic bringt Claude Opus 4.8 (Mai 2026) als Flaggschiff, mit Claude Sonnet 4.6 für die tägliche Arbeit und Claude Haiku 4.5 als das kleine, schnelle Modell.
– Google bringt Gemini 3.1 Pro (das größte Kontextfenster am Markt, 2M Tokens) und das neuere, günstigere Gemini 3.5 Flash.
– Microsoft ist neu auf dieser Liste. Auf der Build 2026 hat das Microsoft-AI-Team seine erste eigene Familie veröffentlicht, darunter MAI-Thinking-1 — ein mittelgroßes Reasoning-Modell, von Grund auf trainiert, nicht aus dem Modell eines anderen destilliert. Es gibt außerdem MAI-Code-1 in GitHub Copilot.
– xAI (Grok) ist ebenfalls am Start, spielt aber für die europäische, unternehmensorientierte Perspektive dieses Beitrags eine kleinere Rolle, daher behalte ich den Fokus auf den Labs oben.
Europa — die souveräne Option.
– Mistral (Frankreich) bringt Mistral Large 3, ein Open-Weight-Modell unter der Apache-2.0-Lizenz, plus Medium 3 und das winzige Small 3.1. Das ist das Modell, das die meisten europäischen Unternehmen zuerst anschauen.
– Aleph Alpha (Deutschland) mit seiner PhariaAI-Plattform ist weniger ein einzelnes Modell und mehr ein vollständiger souveräner Stack, der innerhalb deutscher Gerichtsbarkeit läuft. Nach der Cohere-Fusion im April 2026 ist es das Schwergewicht für den öffentlichen Sektor und regulierte Branchen.
China — das Open-Weight-Kraftpaket.
– DeepSeek V4 (April 2026, MIT-Lizenz) — das derzeit größte Open-Weight-Modell.
– Alibaba Qwen — das offene Qwen3.6-27B (Apache 2.0), aber beachte: Die neuen Flaggschiffe Qwen 3.6-Max und Qwen 3.7-Max sind nun geschlossen.
– Moonshot Kimi K2.6 — ein sehr starkes agentisches Modell, extrem günstig.
– Zhipu GLM-5.1 und MiniMax runden das Feld ab.
Hinweis: „China” bedeutet hier meist offene Gewichte, die du herunterladen und selbst betreiben kannst. Das ist etwas ganz anderes, als deine Daten an eine chinesische API zu senden, und es ist später für den Souveränitäts-Teil von großer Bedeutung.
Wie sieht die Leistung aus?
So sehe ich Preis gegen Leistungsfähigkeit. Der Preis (x-Achse) ist der echte, öffentliche Output-Preis pro 1M Tokens. Die Leistungsfähigkeit (y-Achse) ist meine eigene Einschätzung über Coding, Reasoning und agentische Arbeit hinweg — kein einzelner Benchmark, denn jedes Lab wählt den Benchmark, bei dem es am besten dasteht.

Zwei Dinge stechen heraus:
- Die Spitze ist überfüllt. GPT-5.5, Claude Opus 4.8 und Gemini 3.1 Pro sitzen ganz oben. Der Abstand zwischen ihnen ist klein und ändert sich mit jedem Release. Wenn dir jemand sagt, eines davon sei eindeutig „das beste”, sei vorsichtig.
- Die Open-Weight-Modelle (die Punkte mit dunklem Ring) sind nach oben und links gewandert. DeepSeek V4 und die chinesischen Modelle sitzen jetzt nahe an der Frontier des letzten Jahres — aber zu einem Bruchteil des Preises. Die Evaluation der US-Stellen CAISI / NIST sieht die besten offenen Gewichte etwa 8 Monate hinter der geschlossenen Frontier. Acht Monate, keine Jahre. Das ist die eigentliche Geschichte von 2026.
Tipp: Wenn du liest „schlägt GPT-5.5 bei Benchmark X”, prüfe, welcher Benchmark und wessen Zahlen. Ein Modell, das bei einem Coding-Benchmark gewinnt, kann sich in deinem tatsächlichen Workflow trotzdem schlechter anfühlen.
Was kostet es?
Leistungsfähigkeit ist nur die halbe Entscheidung. Die andere Hälfte ist die Rechnung am Monatsende. Das ist der Output-Preis pro 1M Tokens — der Teil, den du für jede Antwort zahlst, die das Modell schreibt.

Die Spanne ist riesig. Ein US-Frontier-Modell kann pro Antwort 30–60x mehr kosten als ein starkes chinesisches Open-Weight-Modell. Für einen Chat-Assistenten, der von ein paar Leuten genutzt wird, spielt der Preis kaum eine Rolle. Für einen Agenten, der täglich Tausende von Tool-Calls ausführt, entscheidet er, ob das Projekt überhaupt bezahlbar ist.
Tipp: Zwei Hebel senken diese Preise erheblich. Prompt Caching (bis zu ~90% Rabatt auf wiederholten Input) und Batch-Verarbeitung (etwa 50% Rabatt, wenn du warten kannst). Nutze sie, bevor du auf ein schwächeres Modell umsteigst.
Der Spickzettel
| Modell | Herkunft | Offene Gewichte | Preis in / out ($/1M) | Kontext | Ich greife dazu, wenn… |
|---|---|---|---|---|---|
| GPT-5.5 | USA (OpenAI) | Nein | 5 / 30 | 1M | ich den stärksten Allrounder will und Budget kein Thema ist |
| Claude Opus 4.8 | USA (Anthropic) | Nein | 5 / 25 | 1M | ich lange, sorgfältige Coding- und Agent-Arbeit mache |
| Claude Sonnet 4.6 | USA (Anthropic) | Nein | 3 / 15 | 1M | Daily Driver — der Großteil meiner echten Arbeit |
| Claude Haiku 4.5 | USA (Anthropic) | Nein | 1 / 5 | — | hohes Volumen, einfache Aufgaben, geringe Latenz |
| Gemini 3.1 Pro | USA (Google) | Nein | 2 / 12 | 2M | ich den größten Kontext brauche (riesige Dokumente, ganze Repos) |
| Gemini 3.5 Flash | USA (Google) | Nein | 1.5 / 9 | 1M | schnell, günstig, trotzdem stark beim Coding |
| MAI-Thinking-1 | USA (Microsoft) | (im Rollout) | niedrig | — | ich ohnehin im Microsoft- / Copilot-Stack lebe |
| Mistral Large 3 | Europa (FR) | Ja (Apache 2.0) | 2 / 6 | — | ich ein starkes Modell will, das ich in der EU selbst hosten kann |
| Mistral Small 3.1 | Europa (FR) | Ja | 0.2 / 0.6 | — | günstige On-Prem-Aufgaben, Edge, Klassifikation |
| Aleph Alpha Pharia | Europa (DE) | Ja | souveräner Stack | — | öffentlicher Sektor / reguliert, deutsche Gerichtsbarkeit |
| DeepSeek V4 Pro | China | Ja (MIT) | ~0.3 / ~0.9 | 1M | Near-Frontier-Qualität zum niedrigsten Preis |
| Kimi K2.6 | China | Ja (mod. MIT) | sehr niedrig | — | lange agentische Läufe, Tausende von Tool-Calls |
| GLM-5.1 | China | Ja (MIT) | niedrig | — | starkes Coding-Modell zum Selbst-Hosten |
Hinweis: Preise ändern sich fast monatlich, und die günstigen Open-Weight-Modelle kosten dich GPU-Zeit, keine Gebühr pro Token, wenn du sie selbst betreibst. Lies die Tabelle als „Größenordnung”, nicht als Angebot.
Was ist mit Datensouveränität für europäische Unternehmen?
Das ist der Teil, der mir am wichtigsten ist, und der Teil, den die meisten US-Vergleichsbeiträge ignorieren. Ab dem 2. August 2026 gelten die wesentlichen Regeln des EU AI Act, mit Bußgeldern von bis zu 35 Mio. € oder 7% des weltweiten Umsatzes. Gleichzeitig hat sich die Diskussion von „wo liegen die Daten” hin zu „wer kontrolliert den Stack” verlagert.
Hier ist die unbequeme Wahrheit: Der US CLOUD Act erlaubt es US-Behörden, ein US-Unternehmen zur Herausgabe von Daten zu zwingen — selbst wenn die Server in Frankfurt oder Zürich stehen. „EU-Region” auf einer US-Cloud ist also Datenresidenz, nicht volle Souveränität. Für viele Unternehmen ist das in Ordnung. Für ein Krankenhaus, eine Bank, einen Rüstungszulieferer oder eine Behörde ist es das oft nicht.
Ich finde es am einfachsten, es als Karte zu betrachten: Datenkontrolle auf der einen Achse, Leistungsfähigkeit auf der anderen.

- Oben links — US-geschlossene APIs (GPT, Claude, Gemini, MAI). Höchste Leistungsfähigkeit, geringste Datenkontrolle für ein EU-Unternehmen. Großartige Modelle, US-Gerichtsbarkeit. Abmildern mit EU-Regionen, Zero-Retention-Vereinbarungen und Azure-/Bedrock-Data-Boundaries — aber es bleibt ein US-Stack.
- Rechte Seite — offene Gewichte, die du selbst betreibst. Hier lebt die Souveränität. Die chinesischen Open-Weight-Modelle (DeepSeek V4, GLM-5.1, Kimi K2.6) sind MIT-/Apache-lizenziert, du kannst sie also herunterladen und auf einem GPU-Server in einem deutschen Rechenzentrum betreiben. Keine personenbezogenen Daten verlassen dein System. Das Modell ist chinesisch; das Deployment gehört vollständig dir.
- Ganz rechts — Mistral und Aleph Alpha. Ein europäischer Anbieter, offene Gewichte oder ein souveräner On-Prem-Stack, EU-Gerichtsbarkeit. Das ist die sauberste Antwort, wenn „keine US- und keine China-Abhängigkeit” eine harte Anforderung ist.
Hinweis: Ein gemanagter GPU-Server mit ~96 GB VRAM für lokale Inferenz kostet rund 1.500 €/Monat. Das ist nicht nichts, aber für ein reguliertes Unternehmen ist es oft günstiger und entspannter als der Compliance-Kampf um eine US-API.
Wichtige Falle beim Thema „offen”: Metas Llama 4 wird oft als Open Source bezeichnet, aber seine Lizenz schränkt die EU-Nutzung ein und fügt eine Klausel für große Unternehmen hinzu. Die Open Source Initiative erkennt es nicht als Open Source an. Für ein europäisches Unternehmen sind die wirklich sauberen Open-Weight-Optionen also Mistral und die chinesischen MIT-/Apache-Modelle — nicht Llama.
Stärken und Schwächen — die Kurzfassung
- OpenAI GPT-5.5 — stärkster Allrounder, riesiges Ökosystem. Schwäche: Premium-Preis, US-Gerichtsbarkeit.
- Anthropic Claude (Opus 4.8 / Sonnet 4.6) — mein Favorit für Coding und lange Agent-Läufe, sehr stabil. Schwäche: Preis an der Spitze, US-Gerichtsbarkeit.
- Google Gemini 3.1 Pro — unschlagbarer 2M-Kontext und guter Preis für die Klasse. Schwäche: Verhalten ändert sich stark zwischen den Versionen.
- Microsoft MAI — interessant, weil es günstig und effizient ist und genau im Microsoft-Stack sitzt, den viele von uns ohnehin betreiben. Schwäche: brandneu, muss sich noch beweisen.
- Mistral — der europäische Standard: offene Gewichte, EU-Hosting, fairer Preis. Schwäche: eine Stufe unter der absoluten Frontier bei den schwierigsten Aufgaben.
- Aleph Alpha — die souveräne Wahl für öffentlichen Sektor und regulierte Branchen. Schwäche: Du zahlst für Souveränität, nicht für Spitzen-Benchmark-Werte.
- DeepSeek / Qwen / Kimi / GLM — Frontier-nahe Qualität zum niedrigsten Preis, offene Gewichte. Schwäche: chinesische Herkunft (eine Vertrauens- und Governance-Frage, selbst wenn du selbst hostest) und ein besorgniserregender Trend, die besten Modelle auf geschlossene Gewichte umzustellen (Qwen-Max).
Was ich tatsächlich wählen würde
Ich nutze nicht ein Modell für alles. So teile ich es auf:
- Tägliches Coding und Agenten, keine besonderen Datenregeln — Claude Sonnet 4.6, mit Opus 4.8 für die schwierigen Teile. GPT-5.5 ist eine genauso gute Wahl.
- Riesige Dokumente oder Whole-Repo-Kontext — Gemini 3.1 Pro für das 2M-Fenster.
- Hohes Volumen, kostensensibel — ein günstiges Open-Weight-Modell (DeepSeek V4 oder Kimi K2.6) oder Gemini 3.5 Flash / Haiku 4.5, wenn ich auf einer gemanagten API bleiben will.
- Sensible Daten, müssen in der EU bleiben — selbst gehostetes Mistral Large 3. Wenn „kein US, kein China” eine harte Regel ist, ist das meine Antwort.
- Öffentlicher Sektor / stark reguliert — Aleph Alpha Pharia, weil deutsche Gerichtsbarkeit und die Compliance-Story mehr zählen als ein Benchmark-Punkt.
Die ehrliche Zusammenfassung: Ich würde keinem Modell einen „Souveränitäts-Freibrief” oder einen „Qualitäts-Freibrief” geben. Ich passe das Modell an die Aufgabe und an die Datenklassifizierung an. Die US-Frontier-Modelle für die harte, nicht sensible Arbeit — ein europäisches oder selbst gehostetes Open-Weight-Modell in dem Moment, in dem echte Daten ins Spiel kommen.
Fallstricke, die ich jetzt vermeide
- Einem einzelnen Benchmark vertrauen. Jedes Lab pickt sich die Rosinen heraus. Teste einen Nachmittag lang an deinen Aufgaben — das schlägt jedes Leaderboard.
- Die Rechnung bis zur Produktion ignorieren. Ein Modell, das 30x günstiger ist, kann „gut genug” sein und ein Projekt retten. Entscheide über den Preis, bevor du dich in ein Modell verliebst.
- „EU-Region” als „souverän” lesen. Es ist Datenresidenz. Der CLOUD Act reicht weiterhin an einen US-Anbieter heran.
- Annehmen, dass „offen” auch offen bedeutet. Prüfe die Lizenz (Llama schränkt die EU-Nutzung ein; einige chinesische Flaggschiffe wurden geschlossen). Apache 2.0 und MIT sind die sauberen.
- Fest gegen eine einzige API bauen. Behalte eine dünne Abstraktion bei, damit du Modelle austauschen kannst. 2026 wechselt der Spitzenreiter alle paar Wochen.
Wohin das führt
Zwei Trends werden den Rest von 2026 prägen. Erstens: Offene Gewichte schließen die Lücke weiter — heute etwa 8 Monate hinter der Frontier, Tendenz fallend. Für ein europäisches Unternehmen ist das die wichtigste Zahl auf dieser ganzen Seite, denn sie bedeutet, dass „souverän” und „gut genug” endlich im selben Modell zusammenkommen. Zweitens: Der Preis fällt weiter zusammen, was Agenten, die den ganzen Tag laufen, tatsächlich bezahlbar macht.
Mein Rat hat sich seit Beginn meines Schreibens über KI nicht wirklich geändert: Wähle das einfachste Modell, das die Aufgabe erfüllt, halte deine Daten dort, wo dein Compliance-Team nachts ruhig schlafen kann, und bleib flexibel — denn nächsten Monat wird diese ganze Liste wieder ein wenig anders aussehen.
Wenn du eine Ebene tiefer einsteigen willst, wie man Agenten kosteneffizient betreibt, habe ich auch über das KI-Coding-Token-Budget geschrieben. Und für die Regeln selbst ist die offizielle EU-AI-Act-Timeline die Quelle, die ich offen halte.
Ich hoffe, das ist eine kleine Hilfe, wenn die nächste Frage „welches Modell sollten wir nutzen?” auf deinem Schreibtisch landet.
Bleib gesund, Cheers Jannik
