Reddits Spam-Abwehr ist für rund eine Stunde im Jahr 2021 sichtbar geworden, als ein Anzeigefehler die internen Löschgründe statt des üblichen Platzhalters ausspielte. Ein Blogger hat die Fragmente gesammelt und daraus rekonstruiert, wie die Plattform Spam erkennt. Für Betreiber von Foren, Shops und Communities im DACH-Raum steckt darin eine praktische Blaupause.
drweb.de als bevorzugte Quelle auf Google hinzufügenQualitätsgeprüfte Inhalte direkt in Google News & DiscoverJetzt hinzufügenIn den geleakten Löschzeilen standen echte Werte: ein Konto von 2,94 Tagen Alter, ein Spam-Score, 28 Karma-Punkte, fünf Meldungen und die Organisation des Netzbetreibers. Diese Signale kennt jeder Plattformbetreiber, verknüpft sie aber selten so konsequent.
Das Wichtigste in Kürze
- Reddits Regelsystem spamurai bewertet Kontoalter, Karma, Meldungen und Netzbetreiber; das System snooron liest per Texterkennung sogar Text aus Bildern.
- Als Klassifikator diente Googles Perspective API, deren kostenlose Variante sich austricksen ließ und die Ende 2026 abgeschaltet wird.
- Fingerprinting über Browser, Sprache und TLS erkennt Wiederholungstäter auch nach dem Kontowechsel.
- Für DACH-Betreiber liefert Art. 6 Abs. 1 lit. f DSGVO die Rechtsgrundlage, verlangt aber eine dokumentierte Abwägung.
Wie erkennt Reddit Spam technisch?

Reddit staffelt die Spam-Abwehr: Ein Regelsystem namens spamurai prüft Kontosignale mit Lua-Regeln, ein Klassifikator vergibt Wahrscheinlichkeiten, und das neuere System snooron liest per Texterkennung sogar Inhalte aus hochgeladenen Bildern.
Den Kern bildet ein Zusammenspiel aus Regeln und Statistik. Laut den rekonstruierten Fragmenten nutzt Reddit spamurai für starre Regeln und einen Baustein namens Minsky für maschinelles Lernen. Die Teilkomponente echelon gleicht bekannte Spam-Muster gegen Stichwortlisten ab und blockierte so etwa eine konkrete Kampagne mit dem Vermerk „echelon: Equestria Girls Princess Animation Series“.
Deutlich moderner arbeitet snooron. Der Blogger beschreibt es so: snooron läuft auf Flink Stateful Functions, klassifiziert hochgeladene Bilder und führt darauf eine Texterkennung aus. Damit fällt Bilder-Spam auf, der Werbetext als Grafik tarnt. Ein Vorläufer namens REV1 entstand 2016, snooron kam 2021 dazu, zwei Jahre später wanderte alles nach REV2.
Reddits Abwehr-Generationen
Warum ist der Klassifikator die Schwachstelle?
Reddit stützte eine zentrale Spam-Regel auf Googles Perspective API. Weil deren kostenlose Variante frei abfragbar war, konnten Angreifer ihre Texte so lange umformulieren, bis der Score unter die Schwelle rutschte und die Nachricht durchging.
Der Wert „0.12571795 perspective spam“ verrät das Muster: Ein externer Dienst vergibt eine Spam-Wahrscheinlichkeit, ein Schwellenwert entscheidet über die Löschung. Diese Auslagerung wurde zur Lücke. Der Blogger formuliert es scharf: Die ganze Zeit ließ sich eines der wichtigsten spamurai-Kriterien umgehen, indem man die Nachricht so lange änderte, bis sie für Perspectives kostenlose Schnittstelle nicht mehr spammy war.
Für die Bildanalyse zieht Reddit externe Anbieter heran: Hive AI übernimmt Texterkennung und Bildklassifikation in zwölf Sprachen, die Google-Vision-Schnittstelle deckt weitere ab. Diese Abhängigkeit wird brisant, weil Google die Perspective API zum Jahresende 2026 abschaltet. Eine Abwehr, die auf ein einzelnes externes Modell setzt, steht dann ohne Grundlage da.
Was sollten DACH-Betreiber daraus mitnehmen?
Missbrauchserkennung stützt sich im DACH-Raum auf Art. 6 Abs. 1 lit. f DSGVO, das berechtigte Interesse. Betreiber dürfen Signale gegen Spam und Betrug auswerten, müssen die Notwendigkeit aber vorab prüfen und die Interessenabwägung schriftlich dokumentieren.
Der Datenschutz steht dem nicht im Weg. Erwägungsgrund 47 der DSGVO nennt die Betrugsverhinderung ausdrücklich als berechtigtes Interesse, Erwägungsgrund 49 deckt die Netzsicherheit ab. Verlangt wird der dreistufige Test aus berechtigtem Interesse, Erforderlichkeit und Abwägung gegen die Rechte der Betroffenen. Diese Prüfung gehört dokumentiert, denn die Beweislast liegt beim Betreiber. Wie sensibel Standortdaten dabei sind, zeigt ein Fall, in dem Virginia den Verkauf von Standortdaten verbietet.
Praktisch lohnt der Blick auf Reddits Bausteine. Fingerprinting über Browser, Sprache und TLS erkennt Wiederholungstäter, die nur das Konto wechseln. Ein stiller Shadowban hält Angreifer im Ungewissen, statt den nächsten Umgehungsversuch zu verraten. Ratengrenzen für frische Konten und ein gestaffelter Score aus Alter, Meldungen und Netzbetreiber bremsen Massen-Spam, bevor ein Mensch eingreifen muss. Warum diese Abwehr zur Führungsaufgabe gehört, ordnet unser Beitrag ein, dass Cybersecurity Chefsache ist.
Wer die Spam-Abwehr an einen externen Dienst auslagert, verliert in dem Moment die Kontrolle, wo selbiger abgeschaltet wird.
— Michael Dobler, Herausgeber Dr. Web
Ein zweiter Baustein ist die Vielfalt der Signale. Reddits Fehler lag in einer einzelnen frei abfragbaren Schranke. Robuste Systeme kombinieren viele schwache Signale, sodass kein einzelnes durch Ausprobieren zu knacken ist. Dass ausgelagerte Standards selbst zur Angriffsfläche werden, verdeutlicht die Debatte, ob die NSA den ML-KEM-Standard schwächt. Die technischen Grundlagen bündelt unser Überblick zu den Cybersecurity-Grundlagen für KMU.