Wie Reddit Spam erkennt

Markus Seyfferth

Autor Dr. Web

4. Juli 2026

4 Min. Lesezeit

Reddits Spam-Abwehr ist für rund eine Stunde im Jahr 2021 sichtbar geworden, als ein Anzeigefehler die internen Löschgründe statt des üblichen Platzhalters ausspielte. Ein Blogger hat die Fragmente gesammelt und daraus rekonstruiert, wie die Plattform Spam erkennt. Für Betreiber von Foren, Shops und Communities im DACH-Raum steckt darin eine praktische Blaupause.

drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügen

In den geleakten Löschzeilen standen echte Werte: ein Konto von 2,94 Tagen Alter, ein Spam-Score, 28 Karma-Punkte, fünf Meldungen und die Organisation des Netzbetreibers. Diese Signale kennt jeder Plattformbetreiber, verknüpft sie aber selten so konsequent.

Das Wichtigste in Kürze

Reddits Regelsystem spamurai bewertet Kontoalter, Karma, Meldungen und Netzbetreiber; das System snooron liest per Texterkennung sogar Text aus Bildern.
Als Klassifikator diente Googles Perspective API, deren kostenlose Variante sich austricksen ließ und die Ende 2026 abgeschaltet wird.
Fingerprinting über Browser, Sprache und TLS erkennt Wiederholungstäter auch nach dem Kontowechsel.
Für DACH-Betreiber liefert Art. 6 Abs. 1 lit. f DSGVO die Rechtsgrundlage, verlangt aber eine dokumentierte Abwägung.

Wie erkennt Reddit Spam technisch?

Holzkasten mit Werbung, Notizzettel „Intern – bitte nicht anzeigen“ davor — Reddits gestaffelte Spam-Abwehr: spamurai prüft Kontosignale mit Lua-Regeln, ein Klassifikator bewertet Wahrscheinlichkeiten, snooron erkennt Text in Bildern

Reddit staffelt die Spam-Abwehr: Ein Regelsystem namens spamurai prüft Kontosignale mit Lua-Regeln, ein Klassifikator vergibt Wahrscheinlichkeiten, und das neuere System snooron liest per Texterkennung sogar Inhalte aus hochgeladenen Bildern.

Den Kern bildet ein Zusammenspiel aus Regeln und Statistik. Laut den rekonstruierten Fragmenten nutzt Reddit spamurai für starre Regeln und einen Baustein namens Minsky für maschinelles Lernen. Die Teilkomponente echelon gleicht bekannte Spam-Muster gegen Stichwortlisten ab und blockierte so etwa eine konkrete Kampagne mit dem Vermerk „echelon: Equestria Girls Princess Animation Series“.

Deutlich moderner arbeitet snooron. Der Blogger beschreibt es so: snooron läuft auf Flink Stateful Functions, klassifiziert hochgeladene Bilder und führt darauf eine Texterkennung aus. Damit fällt Bilder-Spam auf, der Werbetext als Grafik tarnt. Ein Vorläufer namens REV1 entstand 2016, snooron kam 2021 dazu, zwei Jahre später wanderte alles nach REV2.

Reddits Spam-Abwehr in Zahlen

Rekonstruiert aus versehentlich sichtbaren Löschgründen

~1 Std.

war das interne Löschprotokoll 2021 öffentlich sichtbar

Sprachen deckt der Bilddienst Hive AI bei der Texterkennung ab

Ebenen: Regeln, Klassifikator und Bilderkennung greifen ineinander

Ende 2026

schaltet Google die Perspective API als Klassifikator ab

Reddits Abwehr-Generationen

2016

REV1 startet als erstes Regel-System

2021

snooron modernisiert mit Bild- und Texterkennung

2023

Migration auf REV2 als neue Basis

Warum ist der Klassifikator die Schwachstelle?

Reddit stützte eine zentrale Spam-Regel auf Googles Perspective API. Weil deren kostenlose Variante frei abfragbar war, konnten Angreifer ihre Texte so lange umformulieren, bis der Score unter die Schwelle rutschte und die Nachricht durchging.

Der Wert „0.12571795 perspective spam“ verrät das Muster: Ein externer Dienst vergibt eine Spam-Wahrscheinlichkeit, ein Schwellenwert entscheidet über die Löschung. Diese Auslagerung wurde zur Lücke. Der Blogger formuliert es scharf: Die ganze Zeit ließ sich eines der wichtigsten spamurai-Kriterien umgehen, indem man die Nachricht so lange änderte, bis sie für Perspectives kostenlose Schnittstelle nicht mehr spammy war.

Für die Bildanalyse zieht Reddit externe Anbieter heran: Hive AI übernimmt Texterkennung und Bildklassifikation in zwölf Sprachen, die Google-Vision-Schnittstelle deckt weitere ab. Diese Abhängigkeit wird brisant, weil Google die Perspective API zum Jahresende 2026 abschaltet. Eine Abwehr, die auf ein einzelnes externes Modell setzt, steht dann ohne Grundlage da.

Was sollten DACH-Betreiber daraus mitnehmen?

Missbrauchserkennung stützt sich im DACH-Raum auf Art. 6 Abs. 1 lit. f DSGVO, das berechtigte Interesse. Betreiber dürfen Signale gegen Spam und Betrug auswerten, müssen die Notwendigkeit aber vorab prüfen und die Interessenabwägung schriftlich dokumentieren.

Der Datenschutz steht dem nicht im Weg. Erwägungsgrund 47 der DSGVO nennt die Betrugsverhinderung ausdrücklich als berechtigtes Interesse, Erwägungsgrund 49 deckt die Netzsicherheit ab. Verlangt wird der dreistufige Test aus berechtigtem Interesse, Erforderlichkeit und Abwägung gegen die Rechte der Betroffenen. Diese Prüfung gehört dokumentiert, denn die Beweislast liegt beim Betreiber. Wie sensibel Standortdaten dabei sind, zeigt ein Fall, in dem Virginia den Verkauf von Standortdaten verbietet.

Praktisch lohnt der Blick auf Reddits Bausteine. Fingerprinting über Browser, Sprache und TLS erkennt Wiederholungstäter, die nur das Konto wechseln. Ein stiller Shadowban hält Angreifer im Ungewissen, statt den nächsten Umgehungsversuch zu verraten. Ratengrenzen für frische Konten und ein gestaffelter Score aus Alter, Meldungen und Netzbetreiber bremsen Massen-Spam, bevor ein Mensch eingreifen muss. Warum diese Abwehr zur Führungsaufgabe gehört, ordnet unser Beitrag ein, dass Cybersecurity Chefsache ist.

Wer die Spam-Abwehr an einen externen Dienst auslagert, verliert in dem Moment die Kontrolle, wo selbiger abgeschaltet wird.
— Michael Dobler, Herausgeber Dr. Web

Ein zweiter Baustein ist die Vielfalt der Signale. Reddits Fehler lag in einer einzelnen frei abfragbaren Schranke. Robuste Systeme kombinieren viele schwache Signale, sodass kein einzelnes durch Ausprobieren zu knacken ist. Dass ausgelagerte Standards selbst zur Angriffsfläche werden, verdeutlicht die Debatte, ob die NSA den ML-KEM-Standard schwächt. Die technischen Grundlagen bündelt unser Überblick zu den Cybersecurity-Grundlagen für KMU.

Mehr Newshunger?

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.

Jeden Dienstag die besten Artikel aus dem Dr. Web-Magazin direkt in Ihr Postfach – kein Spam, jederzeit abmeldbar.

Reddits Abwehr-Generationen

Schreiben Sie einen Kommentar Antwort abbrechen

IT-Sicherheit für KMU: Was ein Threat Model ausmacht

Wie das vorinstallierte „MSI Center“ System-Rechte vergibt

Schwere Sicherheitslücken häufen sich rund um KI-Modell-Release

Alibaba verbannt Claude Code wegen angeblicher Backdoor

KI-Sicherheit: deptrust hält KI vom „Slopsquatting“ ab

Wie Reddit Spam erkennt

Das Wichtigste in Kürze

Wie erkennt Reddit Spam technisch?

Reddits Abwehr-Generationen

Warum ist der Klassifikator die Schwachstelle?

Was sollten DACH-Betreiber daraus mitnehmen?

Mehr Newshunger?

Schreiben Sie einen Kommentar Antwort abbrechen

IT-Sicherheit für KMU: Was ein Threat Model ausmacht

Wie das vorinstallierte „MSI Center“ System-Rechte vergibt

Schwere Sicherheitslücken häufen sich rund um KI-Modell-Release

Alibaba verbannt Claude Code wegen angeblicher Backdoor

KI-Sicherheit: deptrust hält KI vom „Slopsquatting“ ab

Mehr solcher Artikel? Jetzt kostenlos abonnieren.

Mehr solcher Artikel?
Jetzt kostenlos abonnieren.