Das vLLM-Team hat mit Micro-Agent ein Framework veröffentlicht, das mehrere kleinere Sprachmodelle innerhalb einer einzigen Modell-API kollaborieren lässt und dabei in Benchmarks größere Frontier-Modelle schlägt. Die Frage lautet nicht mehr, welches Modell das stärkste ist, sondern wie ein Router aus schwächeren Modellen gemeinsam ein stärkeres macht.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Das Wichtigste in Kürze

  • Der vLLM Semantic Router orchestriert mehrere kleinere Modelle als sogenannten Looper. Nach außen wirkt das System wie ein einziger Standard-API-Call.
  • Zero-Copy-Kontextteilung über gemeinsame KV-Cache-Pointer macht Agenten-Übergaben ohne Netzwerk-Round-Trips möglich und senkt Inferenzkosten deutlich.
  • TogetherAIs MoA-Forschung (arXiv 2406.04692) belegte bereits 2024: Open-Source-Modelle übertreffen GPT-4o auf AlpacaEval 2.0 mit 65,1 % gegenüber 57,5 %.
  • Für DACH-Entscheider ist das ein Compliance-Enabler: On-Premise-Betrieb auf europäischen Hostern wie Hetzner oder OVHcloud bleibt die einzige rechtssichere Option für Kanzleien, Versicherungen und Medizin.

Warum ein Router mehr kann als weiterleiten

Drei Metallstifte mit Schildern und Preisetikett (29,99€) auf grauem Sockel
Der vLLM Semantic Router orchestriert intern ein Agent-Team zur Kostenoptimierung, während externe Anwendungen nur einen standard API-Call wahrnehmen

Inferenzkosten sind der eigentliche Hebel hinter Micro-Agent. Bisher hat ein Router entschieden, welches Modell eine Anfrage bearbeitet. Micro-Agent erweitert diese Rolle: Der vLLM Semantic Router übernimmt intern die Orchestrierung eines kleinen Agenten-Teams, während die aufrufende Anwendung davon nichts bemerkt. Das Resultat sieht aus wie ein gewöhnlicher OpenAI-kompatibler API-Call an vllm-sr/auto – dahinter läuft ein strukturiertes Kollaborationsprotokoll.

Der technische Schlüssel liegt in der Zero-Copy-Kontextteilung: Agent A und Agent B teilen denselben KV-Cache über Pointer-Referenzen. Kontext-Übergaben kosten damit weder Netzwerk-Round-Trips noch zusätzlichen GPU-Speicher. Laut vLLM-Produktionsdokumentation sind gecachte Token bis zu zehnmal günstiger in der Berechnung als ungecachte – bei Agent-Workloads mit routinemäßig über 16.000 Token pro Prompt ein erheblicher Kostenvorteil. Die Anwendung bleibt davon vollständig isoliert.

Dieses Prinzip ist wissenschaftlich nicht neu. TogetherAIs Mixture-of-Agents-Paper (arXiv 2406.04692, ICLR 2025 Spotlight) hat bereits gezeigt, dass geschichtete Open-Source-Modelle GPT-4o auf AlpacaEval 2.0 mit 65,1 % gegenüber 57,5 % übertreffen. Micro-Agent überträgt diese Erkenntnis nun erstmals auf die Serving-Ebene statt auf die Trainingsebene und macht die Architektur damit für jeden Betreiber einer vLLM-Instanz nutzbar, ohne ein eigenes Agent-Framework bauen zu müssen. Wer sich im LLMs-Ratgeber bereits mit der Modellauswahl beschäftigt hat, findet hier einen direkten nächsten Schritt.

Nicht das teuerste Modell gewinnt, sondern die klügste Architektur.

— Markus Seyfferth, Chefredakteur Dr. Web

Der Looper: fünf Muster, ein Ergebnis

Karten mit Zahlen, Häkchen, Fragezeichen, Abakus, Miniatur-Straßenlaterne,
Fünf Looper-Muster, ein API-Ergebnis: Der vLLM Semantic Router orchestriert Confidence, Ratings, ReMoM, Fusion und Workflows hinter einer einzigen stabilen Schnittstelle.

Micro-Agent definiert fünf sogenannte Looper-Muster, die je nach Aufgabentyp greifen. Das Confidence-Muster startet mit einem günstigeren Kandidaten und eskaliert nur dann zum nächsten Modell, sobald ein konfigurierbarer Konfidenz-Schwellenwert nicht erreicht wird – Logprob-Margin, Self-Verification oder ein AutoMix-Entailment-Verifier liefern das Signal. Das Ratings-Muster führt mehrere Kandidaten parallel aus, aber strikt unter einem einstellbaren max_concurrent-Cap, aggregiert die Antworten gewichtet und eignet sich für A/B-Evaluierung. ReMoM fächert Breadth-Samples auf, wartet auf genug erfolgreiche Antworten und führt eine abschließende Synthese-Runde durch. Fusion nutzt ein Panel-Judge-Finalizer-Modell. Das Workflows-Muster schließlich ist ein vollständiger Micro-Agent-Workflow mit statischen Rollen oder dynamischem Planner.

Das Bounded-Looper-Prinzip ist dabei kein Marketing-Begriff. Jeder Looper ist ein kleines Runtime-Objekt mit Budget, Topologie, Trace und Failure-Policy. Das System fächert nur so viele parallele Calls auf wie das konfigurierte Cap erlaubt und synthetisiert danach eine einzige OpenAI-kompatible Antwort. Sakana Fugus technischer Report (arXiv 2606.21228) hat dasselbe Prinzip als kommerzielles Produkt eingeführt: ein Modell als Oberfläche, dahinter ein Team. Micro-Agent macht daraus ein offenes Serving-Primitiv unter Apache-2.0-Lizenz. Wer verfolgt hat, wie Agentic-KI-Architekturen den Onlinehandel verändern, erkennt dasselbe Muster: Die Komplexität verschwindet hinter einer stabilen Schnittstelle. Wer wissen möchte, wie KI-Agenten als Testwerkzeuge eingesetzt werden, findet bei TesterArmy einen praktischen Vergleichsfall.

Was das für DACH-Entscheider bedeutet

Ein deutscher Pass und ein Kasten mit Aufschrift „Datenschutz“
Ab 2. August 2026 gilt der EU AI Act vollständig: Self-Hosted-LLMs auf europäischen Hostern sind für regulierte Branchen in DACH die einzige rechtssichere Betriebsform.

DSGVO-Datenlokalisierung macht Micro-Agent zum Compliance-Enabler für regulierte Branchen. Jede Anfrage an eine US-amerikanische Frontier-API verlässt die EU und unterliegt dem CLOUD Act – ein nicht auflösbares Risiko für Kanzleien, Versicherungen und Medizinbetriebe. Der vollständige On-Premise-Betrieb mit vLLM auf europäischen Hostern wie Hetzner, Scaleway oder OVHcloud ist die einzige rechtssichere Alternative. Open-Source-Modelle wie Qwen 2.5 oder Llama 3.1 sind Apache-2.0-lizenziert und damit AVV-fähig.

Ab 2. August 2026 greift die Vollanwendung des EU AI Act. Self-Hosted-LLMs müssen dann ins DSGVO-Verarbeitungsverzeichnis eingetragen werden, Modellherkunft, Trainingsdaten und Architektur sind als AI-Act-Anforderung zu dokumentieren. Das gilt für jeden Betreiber, unabhängig davon, ob die Inferenz lokal oder via API läuft. Wer heute noch ausschließlich auf proprietäre Dienste setzt, baut sich einen Dokumentationsrückstand auf, der sich unter Zeitdruck kaum aufholen lässt. Dass Open-Source-Modelle proprietären Diensten inzwischen qualitativ ebenbürtig sein können, zeigt auch GLM 5.2 im Cyber-Benchmark gegen Claude. Ähnliche Verschiebungen zeichnen sich bei Qwen 3.7 Plus gegenüber GPT-5.4 ab.

Drei konkrete To-dos für DACH-Entscheider: Den bestehenden LLM-Stack auf Multi-Agent-Eignung prüfen und die Looper-Muster Confidence, Ratings und ReMoM anhand typischer Anwendungsfälle evaluieren. Dann vLLM als Inference-Backend mit Open-Source-Modellen in einer Testumgebung aufsetzen und Cost-per-Token gegen aktuelle Frontier-API-Kosten gegenrechnen. Abschließend die Modell-Dokumentation für AI-Act-Compliance anlegen und einen AVV-fähigen europäischen Cloud-Anbieter als Hosting-Basis festlegen. Weitere Einordnung zu KI-Sicherheitsrisiken beim Agenten-Einsatz liefert der Artikel über Prompt-Injection-Angriffe auf KI-Assistenten. Den regulatorischen Druck auf KI-Modelle aus US-Quellen verdeutlicht der Fall Anthropic unter US-Exportkontrolle. Alle weiteren KI-News und Hintergründe bündelt die KI-Kategorienseite auf Dr. Web.

Mehr Newshunger?

Eine orange-weiße Roboterbiene mit Brille und Zeitung vor weißem Hintergrund
GLM 5.2 vs. Claude: Sicherheitstests zu Schwachstellenerkennung, Bildschirmerfassung und Prompt-Injection-Resistenz
4,3 16 Bewertungen

Wie hat Ihnen dieser Artikel gefallen?