Neues Open-Source-Tool lässt KI-Modelle Videos analysieren

Michael Dobler

Autor Dr. Web

3. Juli 2026

3 Min. Lesezeit

Ein neues Open-Source-Tool bereitet Videos so auf, dass beliebige Sprachmodelle sie inhaltlich erfassen können. Der Clou liegt nicht im Modell, sondern in der Vorverarbeitung: Szenen statt Sekundentakt, Transkript statt Cloud-Upload.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

Videos per KI analysieren ist bisher eine Aufgabe für sogenannte multimodale Modelle wie Gemini oder GPT-4o. Ein quelloffenes Projekt auf GitHub geht einen anderen Weg und macht laut Projektbeschreibung jedes KI-Sprachmodell videofähig, indem es Bildinhalte und Ton lokal zerlegt und als lesbares Paket übergibt. Für Unternehmen mit Datenschutzauflagen ist genau dieser Zwischenschritt interessant.

Das Wichtigste in Kürze

Das Tool extrahiert per FFmpeg Frames an Szenenwechseln statt im starren Sekundentakt und entfernt Dubletten.
Untertitel werden bevorzugt genutzt, Whisper springt nur ein, wenn keine Spur vorliegt.
Die Vorverarbeitung läuft lokal, nur ausgewählte Keyframes gehen an ein Cloud-Modell.
Das senkt Token-Kosten und begrenzt, welche Daten das Haus verlassen.

Wie bringt das Tool ein Sprachmodell dazu, ein Video zu erfassen?

Filmrolle mit Bildern (Löwenzahn, Kompass, Birne), Text „NUR DAS WESENTLICHE“, weißer Grund — Das Tool zerlegt Videos in Einzelbilder und Transkripte, die als Standard-Input für Sprachmodelle dienen statt des Rohvideos

Kurz gesagt: Das Tool zerlegt ein Video in aussagekräftige Einzelbilder und ein Transkript, die jedes Sprachmodell als normalen Bild- und Textinput verarbeitet. Das Modell selbst bekommt kein Video, sondern eine kuratierte Auswahl.

Der Mechanismus besteht aus sechs Schritten. Nach dem Laden der Datei greift FFmpeg Frames an erkannten Szenenwechseln ab, ergänzt um eine Mindestdichte. Eine Pixel-Differenz-Prüfung gegen ein gleitendes Fenster wirft nahezu identische Bilder heraus, sodass jede Einstellung nur einmal beim Modell landet.

Der Unterschied zum Standardverfahren ist ökonomisch bedeutsam. Übliche Skripte sampeln ein Bild pro Sekunde. Bei einem statischen Screencast entstehen so massenhaft redundante Frames und die Token-Rechnung steigt, bei einem schnell geschnittenen Clip fehlen entscheidende Momente. Die Szenenerkennung trifft genau die Bilder, die inhaltlich zählen.

Beim Ton setzt das Projekt auf vorhandene Untertitel im SRT- oder VTT-Format und ruft die Spracherkennung Whisper nur als Rückfallebene auf. Das spart Rechenzeit und liefert oft ein saubereres Transkript als eine reine Audio-Analyse.

Baustein statt Blackbox: Was steckt hinter dem Trend?

Nativ multimodale Modelle wie Gemini oder GPT-4o können Videos direkt entgegennehmen, doch ihre Verarbeitung bleibt eine Blackbox und bindet an einen Anbieter. Das neue Werkzeug steht für einen Gegentrend: kleine, offene Bausteine, die sich vor jedes Modell schalten lassen. Wer die Frame-Auswahl selbst kontrolliert, kann günstigere oder lokale Modelle einsetzen und behält die Hoheit über die Verarbeitung.

Dass FFmpeg das Rückgrat bildet, ist kein Zufall: Der Encoder bleibt in Version 9.1 die Standardbibliothek für Medienverarbeitung und macht solche Werkzeuge überhaupt erst leichtgewichtig. Wie stark die offene KI-Szene aufholt, zeigen Projekte rund um quelloffene Sprachmodelle im Unternehmenseinsatz, während Gemini seine Stärke gerade bei Bild, Audio und Video ausspielt.

Was heißt das für Unternehmen im DACH-Raum?

Direkt nutzbar wird das Tool überall dort, wo Videomaterial in Text überführt werden soll: automatische Untertitel für Barrierefreiheit, durchsuchbare Schulungsvideos oder geprüfte Zusammenfassungen von Webinaren. Die lokale Vorverarbeitung ist dabei der eigentliche Hebel.

Für die DSGVO-Abwägung zählt, welche Daten das Haus verlassen. Frame-Extraktion und Whisper-Transkription laufen auf eigener Hardware, an das Cloud-Modell gehen nur die ausgewählten Keyframes. Personenbezogene oder vertrauliche Inhalte lassen sich vor dem Upload gezielt aussortieren, was eine reine Cloud-Vision-API nicht bietet. Drei Punkte gehören auf die To-do-Liste: die Szenen-Frames vor dem Versand sichten, die Whisper-Stufe für sensible Formate auf lokale Ausführung festlegen und die Kosten pro Video gegen eine native Video-API rechnen, bevor ein Verfahren produktiv geht.