Foundry Local: Run AI Models Offline on Your Mac

Foundry Local: KI-Modelle offline auf dem Mac

In diesem Blogbeitrag erkläre ich, wie du KI-Modelle vollständig offline auf einem Mac mit Microsoft Foundry Local ausführst. Kein Azure-Abonnement, kein API-Key, keine Internetverbindung. Alles läuft auf deinem eigenen Gerät.

Ich habe ein kurzes Video gemacht, das das Ganze Schritt für Schritt zeigt. Wenn du lieber zuschaust als liest, hier ist es:

Der Rest dieses Beitrags ist die geschriebene Version, damit du die Befehle kopieren und mitmachen kannst.

Was ist Foundry Local?

Foundry Local ist Microsofts Runtime, um offene KI-Modelle direkt auf der eigenen Maschine auszuführen. Du kannst es dir so vorstellen: „die Azure AI Foundry-Erfahrung, aber das Modell läuft auf deinem Laptop statt in der Cloud.“

Das Wichtigste: Sobald ein Modell heruntergeladen ist, kannst du es vollständig offline nutzen. Deine Prompts und deine Daten verlassen das Gerät nie.

Ein paar Dinge machen die Arbeit damit angenehm:

  • Es basiert auf ONNX Runtime und nutzt Execution Provider, um die beste Hardware auszuwählen. Auf einem Mac mit Apple Silicon nutzt es die GPU über Metal.
  • Es bringt einen Modellkatalog mit. Du lädst ein Modell einmal über einen kurzen Alias herunter, es wird zwischengespeichert, und danach läuft es lokal.
  • Es stellt eine OpenAI-kompatible API auf localhost bereit. Wenn du also bereits Code hast, der mit dem OpenAI SDK spricht, zeigst du ihn größtenteils einfach auf den lokalen Endpunkt.
  • Es gibt eine CLI zum schnellen Testen und SDKs für Python, C#, JavaScript und Rust für echte Apps.

Warum sollte ich ein Modell lokal ausführen?

Die Cloud ist großartig, aber sie ist nicht immer die richtige Antwort. Das sind die Fälle, in denen ich zu lokal greife:

  • Daten, die das Gerät nicht verlassen dürfen — rechtliche, gesundheitsbezogene oder interne Dokumente.
  • Offline- oder Edge-Szenarien — im Flugzeug, in der Werkshalle oder in einem abgeschotteten Netzwerk.
  • Prototyping — keine Token-Kosten und keine Rate Limits beim Experimentieren.
  • Niedrige Latenz — wenn der Round-Trip zur Cloud der langsame Teil ist.

Note: Ein lokales Modell wird bei schwierigen Reasoning-Aufgaben nicht mit den größten Cloud-Modellen mithalten. Und die Größe des Modells, das du ausführen kannst, ist durch deinen RAM begrenzt. Für „gut genug und schnell“-Workloads ist es aber wirklich beeindruckend.

Wie installiere ich Foundry Local auf einem Mac?

Der einfachste Weg unter macOS ist Homebrew. Das vollständige Setup ist auch im Microsoft Learn Quickstart dokumentiert. Öffne ein Terminal und führe diese beiden Befehle aus:

# Add the Microsoft tap and install Foundry Local
brew tap microsoft/foundrylocal
brew install foundrylocal


Das war’s. Du hast jetzt den Befehl foundry verfügbar.

Hint: Du brauchst macOS mit Apple Silicon, mindestens 8 GB RAM (16 GB empfohlen) und ein paar GB freien Speicherplatz für die Modelle.

Wie führe ich mein erstes Modell aus?

Der schnellste Test ist ein einziger Befehl. Wähle ein kleines Modell, damit der Download schnell geht:

# Download (if needed) and start an interactive chat
foundry model run phi-3.5-mini


Beim ersten Mal lädt Foundry Local das Modell herunter. Danach startet es in Sekunden. Du landest direkt in einem interaktiven Chat im Terminal — tippe eine Frage, erhalte eine Antwort, alles auf deiner Maschine.

Um zu sehen, was sonst noch verfügbar ist, lass dir den Katalog auflisten:

# List the models you can pull
foundry model list


Und um den Hintergrunddienst zu verwalten, der die Modelle bereitstellt:

foundry service status    # is it running?
foundry service start     # start it
foundry service stop      # stop it


Note: Der allererste Lauf fühlt sich langsam an wegen des Modell-Downloads. Beurteile die Geschwindigkeit nicht danach — der zweite Lauf ist der echte.

Wie rufe ich es aus meinem eigenen Code auf?

Hier wird es interessant. Foundry Local stellt eine OpenAI-kompatible API lokal bereit, sodass du das normale OpenAI SDK weiterverwenden kannst. Hier ist ein minimales Python-Beispiel:

# Talk to a local model through the OpenAI-compatible API
from foundry_local_sdk import Configuration, FoundryLocalManager

config = Configuration(app_name="my_local_app")
FoundryLocalManager.initialize(config)
manager = FoundryLocalManager.instance

# Pick a model from the catalog, download + load it
model = manager.catalog.get_model("qwen2.5-0.5b")
model.download()
model.load()

client = model.get_chat_client()
messages = [{"role": "user", "content": "Why is the sky blue?"}]

for chunk in client.complete_streaming_chat(messages):
    content = chunk.choices[0].delta.content
    if content:
        print(content, end="", flush=True)

model.unload()


Installiere zuerst das SDK mit pip install foundry-local-sdk openai. Es gibt entsprechende SDKs für C#, JavaScript und Rust, sodass es sich in eine echte Anwendung einfügt und nicht nur in eine Demo.

Hint: Da die API OpenAI-kompatibel ist, ist der einfachste Migrationsweg, deinen bestehenden OpenAI-Code beizubehalten und nur die Base-URL auf den lokalen Endpunkt zu ändern.

Was läuft gut und was nicht?

Eine einfache Faustregel aus meinen eigenen Tests auf einem Mac:

ModellgrößeLäuft mitGut für
Klein (unter ~1B)8 GB RAMschnelle Aufgaben, Klassifizierung, Entwürfe
Mittel (3–8B)16 GB RAMdie meisten alltäglichen Chats und Zusammenfassungen
Großviel RAMmeist immer noch besser in der Cloud

Wenn du 16 GB RAM hast, ist ein mittelgroßes Modell der Sweet Spot. Größer als das, und du wirst merken, wie dein RAM zur Neige geht.

Was ich tun würde

Für mich ist die eigentliche Veränderung eine im Kopf. Die Cloud ist nicht mehr der Standard. Sie ist jetzt eine Option neben der sehr leistungsfähigen Maschine, die ohnehin schon auf meinem Schreibtisch steht.

Wenn du mit sensiblen Daten arbeitest, viel offline bist oder einfach ohne Rechnung experimentieren willst, installiere Foundry Local und führe foundry model run phi-3.5-mini einmal aus. Es dauert fünf Minuten und verändert, wie du darüber denkst, wo KI laufen muss.

Wenn du das größere Bild davon haben willst, wohin sich all das entwickelt, habe ich über den agentischen Stack geschrieben, den Microsoft gezeigt hat, in Microsoft Build 2026: A Field Guide to the Agentic Stack. Lokale Inferenz ist ein weiterer Baustein in derselben Geschichte.

Ich hoffe, das ist eine kleine Hilfe.

Bleib gesund, Cheers Jannik

ALL-ABR — Beispiel-Screenshot zum Microsoft 365 Agents-Beitrag

Leave a Reply