Wie sparen Embeddings 97 % Speicher fast verlustfrei?

Asymmetrische Quantisierung: Fast verlustfreie Suche bei 97 Prozent weniger Speicher

Michael Dobler

Autor Dr. Web

1. Juli 2026

Aktualisiert: 2. Juli 2026

2 Min. Lesezeit

Asymmetrische Quantisierung verspricht, den Speicherbedarf von Vektordatenbanken um bis zu 97 % zu senken, fast ohne an Trefferqualität zu verlieren. Für Unternehmen, die semantische Suche oder RAG betreiben, ist das vor allem eine Kostenfrage. Der Kniff liegt in einer ungleichen Behandlung von Anfrage und Dokument.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Asymmetrische Quantisierung reduziert die Größe gespeicherter Embeddings drastisch, indem Dokumente grob und Suchanfragen fein aufgelöst bleiben. Klassische binäre Quantisierung schrumpft einen Vektor auf ein Zweiunddreißigstel seiner Größe. Der Clou liegt darin, dass die Trefferqualität dabei kaum leidet.

Das Wichtigste in Kürze

Bis zu 97 % weniger Speicher für den Vektorindex.
Asymmetrisch: Dokumente werden binär gespeichert, die Anfrage bleibt hochauflösend.
96 bis 99 % der ursprünglichen Trefferqualität bleiben laut Anbietertests erhalten.
Kombinierbar mit Matryoshka-Embeddings für zusätzliche Einsparung.

Wie funktioniert die ungleiche Auflösung?

Frau blickt auf komprimierten Papierwürfel neben Maschine mit riesigem Papierstapel — Asymmetrische Quantisierung speichert Dokumente in niedriger Auflösung, Suchanfragen in voller Präzision. Eine Nachbewertung der Top-Treffer verbessert die Ergebnisse

Bei der asymmetrischen Quantisierung liegen die gespeicherten Dokumente in grober Auflösung vor, die Suchanfrage dagegen in voller Genauigkeit, was den Großteil der Trefferqualität rettet. Die teure Präzision steckt nur im flüchtigen Suchvektor, dort zahlt sich der Aufwand aus.

Ein zweiter Schritt bügelt Ungenauigkeiten aus. Eine Nachbewertung der besten Kandidaten mit den vollen Vektoren holt einen großen Teil der verlorenen Genauigkeit zurück, ohne den ganzen Index in Originalgröße vorhalten zu müssen.

Noch mehr spart die Kombination mit Matryoshka-Embeddings, die zusätzlich die Zahl der Dimensionen kürzen. Die technische Grundlage ist seit einigen Jahren dokumentiert und in gängigen Bibliotheken verfügbar.

Was bringt das Ihrer KI-Suche?

Große, beschriftete Festplatte mit Zubehör neben kleiner SSD und Miniaturfigur auf Weiß — Ein geschrumpfter Index senkt die Infrastrukturkosten und macht das Selbsthosten realistisch.

Weniger Speicher heißt geringere Infrastrukturkosten und schnellere Suche, gerade bei Millionen von Dokumenten. Ein Index, der zuvor 200 Gigabyte Arbeitsspeicher verlangte, passt nach der Quantisierung in wenige Gigabyte.

Für den Mittelstand senkt das die Hürde, semantische Suche selbst zu betreiben, statt sie teuer einzukaufen. Wer Dokumente aus Datenschutzgründen im eigenen Haus hält, profitiert doppelt, weil die günstigere Hardware das Selbsthosten realistisch macht.

Sinnvoll ist ein Test mit dem eigenen Datenbestand. Messen Sie die Trefferqualität vor und nach der Quantisierung an echten Suchanfragen, bevor Sie den kompletten Index umstellen, ähnlich wie beim Blick auf sinkende KI-Inferenzkosten.

Nicht jede KI-Verbesserung braucht ein größeres Modell. Manchmal steckt der Gewinn in der Frage, wie fein ein Vektor überhaupt gespeichert sein muss.

— Markus Seyfferth, Chefredakteur Dr. Web