Der Captcha-Dienst „reCAPTCHA“ – mithelfen und Wissen digitalisieren

Jedes etablierte Online-System lässt sich mittlerweile über mindestens ein Plugin um eine Captcha-Funktionalität erweitern, jene verdrehten Buchstaben-Zahlen-Kombinationen, die bei korrekter Eingabe den Seitenbesucher als Menschen legitimieren. Das Projekt reCAPTCHA entlockt dem Captcha-Gedanken einen höheren Nutzwert: Das Captcha-Feld zeigt Worte, die bei der Digitalisierung von Büchern nicht erkannt wurden. Und somit vervollständigt jede Eingabe unser digitalisiertes Wissen.

Funktionsweise

Die Idee ist einfach wie genial: Ist ein Wort derart undeutlich gedruckt, dass selbst eine spezialisierte OCR-Anwendung es nicht zu erkennen vermag, so taugt es wunderbar als Captcha.

Beispiel einer Eingabemaske
Abbildung: Beispiel einer reCAPTCHA-Eingabemaske

Das Projekt reCAPTCHA der Carnegie Mellon Universität stellt die Schnittstelle zur Verfügung zwischen einer Datenbank mit digitalisierten, jedoch nicht identifizierten Worten sowie Internetbenutzern, die webweit täglich etwa 100 Millionen Captchas eingeben müssen, um sich zu authentifizieren.

Mehrere Mechanismen sorgen hierbei für eine gleichbleibend hohe Qualität der reCAPTCHA-Ergebnisse:

  • Anstatt zufälliger Buchstaben-Zahlen-Kombinationen müssen sinnvolle Worte erkannt werden. Falls selbst mehrere Buchstaben für einen Menschen unleserlich sind, so kann dieser doch meist das komplette Wort erfassen; und das mit hoher Wahrscheinlichkeit auch dann, wenn er kein englischer Muttersprachler ist.
  • Zusätzlich zu einem unbekannten erscheint bei jeder Aufgabe auch ein dem reCAPTCHA-System bekanntes Wort. Gibt der Besucher dieses Kontrollwort korrekt ein, dann vermutet das System die Bereitschaft, auch das unbekannte Wort richtig einzutippen zu wollen.
  • Die angezeigten Worte sind dreifach deformiert: Altersbedingte Verfärbungen und Ausfransungen auf dem Original, Unschärfe beim Scanvorgang und schließlich grafische Transformationen, wie sie auch bei normalen Captchas Verwendung finden (Verwirbeln, Verdrehen, Durchstreichen).
  • Es existieren mittlerweile mehr als 100.000 Kontrollworte, deren Anzeige unabhängig von ihrer Verbreitung gleichmäßig häufig erfolgt. Die Menge der Kontrollworte erhöht sich stetig.
  • Diese Kontrollworte gelten als für Maschinen unlesbar, da sie zuvor von zwei unabhängigen Erkennungsprogrammen unterschiedlich gedeutet beziehungsweise nicht sinnvoll erkannt wurden. Captcha-Bots, die derartige Worte korrekt erkennen, wären diesen Anwendungen also überlegen und hätten gute Chancen, ihre Entwickler ehrbar in Lohn und Brot zu bringen.
  • Das unbestimmte Wort erscheint bei mehreren Anfragen zufällig deformiert in unterschiedlichen Kontrollwort-Kombinationen. Über einen Vergleichs- und Bewertungsalgorithmus werden die Resultate entweder als wahrscheinlichste Lösung in die Datenbank zurückgespeichert, in die Liste der Kontrollworte aufgenommen oder als unlösbar gekennzeichnet.
  • Vom Captcha-Prozess unabhängig werden die gescannten und berichtigten Dokumente abschließend nochmals einer Überprüfung unterzogen. Jede Technik ist immer nur so perfekt, wie der Mensch, der sie bedient…

Auf diese Weise konnte reCAPTCHA bisher die digitale Speicherung von circa 440 Millionen unerkannten Worten vorantreiben (Stand: September 2008). Mittlerweile übertrifft die Qualität der digitalisierten Resultate sogar die Arbeit zweier professioneller Transkriptoren.

Nutzung

Um den Captcha-Service für Ihre Webseiten nutzen zu können, ist eine kostenlose Registrierung notwendig. Als Nächstes benötigen Sie ein Schlüsselpaar, mit dem die Kommunikation zwischen Besucher-Browser, Ihrem Webserver und dem reCAPTCHA-Server abgesichert wird. Melden Sie sich dafür an Ihrem reCAPTCHA-Account an, fügen Sie die entsprechende Domain hinzu und erzeugen Sie das Schlüsselpaar.

Schlüsselpaar erzeugen
Abbildung: reCAPTCHA-Eingabemaske: Erzeugung eines Schlüsselpaares

reCAPTCHA stellt Plugins für die gebräuchlichsten (Open-Source-)Anwendungen zur Verfügung (unter Anderem WordPress, MediaWiki, Typo3, Joomla). Sollte für Ihr System kein Plugin aufgeführt sein, haben Sie zwei Möglichkeiten:

  1. Meist hat die Entwicklergemeinde beziehungsweise der Anbieter Ihrer Anwendung bereits ein Plugin entwickelt. Fündig werden Sie oft im entsprechenden Portal bei den Downloads oder Plugins. Ansonsten schafft sicherlich eine Anfrage im Forum oder beim Support Abhilfe.
  2. Sie können mit den gegebenen Code-Snippets (PHP, ASP.NET, Python, Perl, Ruby, Java) einfach und schnell Ihre Formulare direkt modifizieren.

Die Dokumentation der reCAPTCHA-API sowie der Plugins ist erschöpfend auf den reCAPTCHA-Seiten erklärt (unter anderem auch die Anpassung von Stil und Sprache). Einige Programmierkenntnisse sollten Sie allerdings im Gepäck haben.

Ablauf einer reCAPTCHA-Abfrage

Ablauf einer Abfrage
Abbildung: Ablauf einer reCAPTCHA-Abfrage (© 2009 Carnegie Mellon University)

  1. Bei Aufruf einer Captcha-Seite wird zusammen mit dem Formular auch das eingebundene reCAPTCHA-Javascript mit dem öffentlichen Schlüssel (Public Key) von Ihrem Webserver zum Browser des Besuchers übertragen.
  2. Das Javascript fordert beim reCAPTCHA-Server eine zu lösende Aufgabe an. Der Server füllt als Antwort das Captcha-Feld des Formulars mit zwei Worten und verbindet diese Aufgabe mit einer ID.
  3. Der Besucher füllt nun Formular sowie Captcha-Feld aus und schickt das Formular zurück an Ihren Webserver.
  4. Der reicht die Antwort, die ID und Ihren privaten Schlüssel (Private Key) zur Überprüfung an den reCAPTCHA-Server weiter.
  5. Dieser wiederum vergleicht nun Schlüssel, ID sowie Usereingabe und gibt eine entsprechende Antwort zurück. Fällt diese Antwort positiv aus, setzt Ihr Webserver die Verarbeitung des Formulars fort (Kommentar, Bestellvorgang, Anmeldung et cetera). Bei Unstimmigkeiten und der entsprechenden Fehlermeldung stoppt Ihr Server die Verarbeitung und teilt dies dem Browser Ihres Besuchers mit. Hierbei wird das Formular inklusive Fehlermeldung erneut gesendet und der Ablauf startet von neuem.

Emailadresse verbergen

Als weiteren Service bietet reCAPTCHA mit Mailhide das Verbergen von Emailadressen an. Geben Sie auf der reCAPTCHA-Webseite die Email-Adresse ein, die Sie maskieren möchten. Klicken Sie auf die Schaltfläche Protect It!, und auf der folgenden Seite erhalten Sie den notwendigen HTML-Code. Tauschen Sie diesen auf Ihrer Webseite gegen den entsprechenden Email-Verweis aus.

Angabe der zu maskierenden Emailadresse
Abbildung: Angabe der zu maskierenden Email-Adresse


Abbildung: Resultierender HTML-Code

Die Email wird ab sofort im Format „adre…@domain.de“ angezeigt. Klickt nun ein Besucher auf die drei Punkte, so öffnet sich ein Popup-Fenster, in dem er zunächst ein Captcha lösen muss, bevor ihm die Emailadresse im Klartext angezeigt wird.

Die Maskierung von vielen Emails können Sie über die angebotene reCAPTCHA Mailhide API automatisieren. Eine Registrierung hierfür ist nicht erforderlich. Über die reCAPTCHA-Seite können Sie einfach ein Schlüsselpaar generieren und sofort einsetzen.

Diskussion der Kritikpunkte

  • Barrierefreiheit: Wie so oft, bei grafikorientierten Abfragemethoden, sind sehbehinderte Menschen auch hier benachteiligt. Zwar existiert die Möglichkeit, sich eine Audiodatei abspielen zu lassen, doch sind die Einspielungen für Nicht-Muttersprachler kaum zu lösen. Zudem kann der Abspielknopf nur über die Maussteuerung und nicht über die Tabulatortaste erreicht werden.
  • Sprache: Aktuell werden nur englische Worte abgefragt. Harren wir der Digitalisierung von FAZ, Zeit und SZ…
  • Lösen durch Maschinen: Wie oben beschrieben, wäre ein Captcha-Bot wünschenswert, der alle Worte erkennt, um die OCR-Technologie voranzutreiben.
  • Lösen durch Menschen: Sich in die Kommunikation zwischen Browser, Server und reCAPTCHA einzuklinken, dürfte durch die Verschlüsselung mit privatem und öffentlichem Schlüssel schwierig sein. Ob indisches Fremdlösen funktioniert, vermag ich nicht zu beurteilen, da auch das wohl nur über Man-in-the-middle-Attacken ablaufen könnte.

Und selbst, wenn es gelänge, die reCAPTCHA-Methode zu missbrauchen, hätte es doch etwas Gutes: Auch damit wird das digitalisierte Wissen erweitert. Es kostet nur etwas mehr Nerven.

Fazit

Der reCAPTCHA-Dienst ist eine elegante und schnell anzuwendende Lösung, um Webseite und Postfach spamfrei zu halten. Der Programmieraufwand ist übersichtlich, erfordert allerdings einige Grundkenntnisse.

Und die Betreiber denken weiter: Angelehnt an das Projekt ASIRRA von Microsoft könnten zukünftig Bilddatenbanken von digitalisierten Gegenständen angelegt werden. Oder Videodatenbanken. Auf dem Feld der Identifizierung von komplexen Objekten und Vorgängen ist der Mensch bisher von der künstlichen Intelligenz noch ungeschlagen. ™

Michael Sahm ist technischer Autor für Soft- und Hardwaredokumentation sowie engagierter Blogautor für viele aktuelle und wissenswerte Themen.

Sortiert nach:   neueste | älteste | beste Bewertung
Markus
Gast
Markus
7 Jahre 1 Monat her

Es gibt mittlerweile so viele Ideen und wirksame Ansätze eine Spamschutz zu integrieren ohne ein Captcha zu benutzen, das ich nicht verstehe warum solche veralteten Systeme immer noch verwendet werden. Es ist eine der größten Barrieren im Internet.

Ich gehe mal davon aus das hier auch ein anderes System zum Einsatz kommt, da ich nicht davon ausgehe das diese Seite völlig ungeschützt ist.

Christoph
Gast
7 Jahre 1 Monat her

Ich hasse diese Captchas. Es ist einfach unnötig den User damit zu ärgern. Wie Markus schon ganz richtig gesagt hat, gibt es viele andere Wege Spambots auszuschließen. Trotzdem entscheiden sich immer noch zu viele für Captchas.

domingos
Gast
7 Jahre 1 Monat her

Ich vermute mal, die verwenden hier Akismet wie jeder verünftige Mensch. Aksimet läuft wesentlich besser als etwa der Spamfilter von GMX. Ich halte die Captchas für behindertenfeindlich, die alternativ generierten Audio-Aufgaben sind ebenfalls kaum zu verstehen.
Ansonsten ist das eine gute Idee, ich ärgere mich seit Jahren über die miese Qualität der OCR.

Manuel
Gast
7 Jahre 1 Monat her
Entgegen domingos Äusserung sehe ich Captchas nicht nur für Behinderungen als größte Hürde und profanes Mittel solche User zu vergraulen. Wurde mit diesem Service auch schon auf einigen Seiten konfrontiert, und was war? Musste mehrfach auf den „reload“-Button drücken weil das Problem das gleiche ist wie bei anderen 0815 Captchas: Meist sind die Buchstaben derart verfremdet dass man kaum in der Lage ist zu erkennen was man da eigentlich vor sich hat. Wenn ein normaler Nutzer sich vier fünf solcher Dinger ansehen muss, ehe er eins vorgesetzt bekommt das er mit Müh und Not entziffern kann, dann hat das System… Read more »
Erika
Gast
Erika
7 Jahre 1 Monat her
Im Prinzip finde ich die Idee hinter reCAPTCHA gut. Aber daran stören mich direkt zwei Dinge: 1) Der Dienst ist nicht Behinderten freundlich 2) Der Besucher muss JavaScript aktiviert haben @Markusund @Christoph Klar gibt es viele Ideen eine Spamschutz zu integrieren ohne ein Captcha zu benutzen, aber bisher habe ich noch keinen wirksamen Ansatz gesehen. @domingos Das Aksimet recht gut funktionieren soll, habe ich schon öfter gehört. Was mich an Aksimet stört, ist das einige Daten an einen fremden Server (in die USA) übermittelt werden. Auf dieses Vorgehen muss in der Datenschutzerklärung explizit hingewiesen werden. Für Tipps / wirksame Ansätze… Read more »
Markus
Gast
Markus
7 Jahre 1 Monat her

Also ich nutze zur Zeit diese Ansätze:

http://www.1ngo.de/web/captcha-spam.html

Flo
Gast
7 Jahre 1 Monat her

Ich finde auch, das man Captchas soweit möglich meiden sollte. Doch manchmal sind sie einfach ein notwendiges Übel.

Die reCaptchas finde ich übrigens in der Tat besonders schwer zu lösen. Dafür finde ich das Prinzip recht cool, dass man damit zumindest etwas sinnvolles tut.

Die Audio-Variante gibt es übrigens auch in verschiedenen Sprachen, u.a. Deutsch. Allerdings finde ich diese noch schwieriger als die grafische Variante. :)

Stefan Wienströer
Gast
7 Jahre 1 Monat her

Ich mag den Dienst (aus sicht des Anwenders) überhaupt nicht. Meine Catchas mache ich komplett ohne Verzerrungen oder ähnlich. Buchstaben die man verwechseln könnte (lI) lasse ich komplett aus. Das reicht so bei mir (derzeit) völlig aus.

simonnickel
Gast
7 Jahre 1 Monat her

Auch wenn ich Captcha abgrundtief hasse, ich scheiter regelmäßig daran… Trotzdem danke für die Vorstellung von reCAPTCHA, find die Idee fehler in eingescannten Büchern zu benutzen ziemlich genial.

Helen
Gast
Helen
7 Jahre 1 Monat her

Ich verwende ein Script, um meine E-Mail-Adresse zu verbergen, und habe noch nie Spam bekommen. Allerdings auch noch keine Mail von einem Blinden :) Können Scrrenreader die Mail richtig deuten? Wohl nicht, sonst könnten Spambots das doch auch.

Frank Mey
Gast
7 Jahre 1 Monat her

„2) Der Besucher muss JavaScript aktiviert haben“ – sollte heutzutage kein NoGo mehr sein, die Browser sind ausreichend sicher gegenüber JS-Attacken…

Thorsten
Gast
Thorsten
7 Jahre 1 Monat her

@Markus: Vielen Dank für den Link.
Endlich eine wirklich gute alternative!!

trackback

[…] Salm erklärt auf Dr. Web den CAPTCHA-Dienst reCAPTCHA. Die geniale “2 Fliegen mit 1 Klappe“-Idee dahinter: 1.) […]

Markus
Gast
7 Jahre 1 Monat her

Hallo,

wen nerven diese Captcha nicht, doch wenn man auf einer Seite eine Gewinnspiel am laufen hat, kann man einfach nicht darauf verzichten. Alleine heute nacht wieder ca 4000 Boteinträge geblockt.

Grüße
Markus

Stefan
Gast
Stefan
7 Jahre 1 Monat her

Für WordPress kann ich nur jedem das Plugin „WP-Spam Free“ empfehlen. Im Gegensatz zu Akismet, wo man hinterher den ganzen Müll nochmal manuell aus dem Backend entfernen darf, kommen bei diesem Plugin die Bots garnicht mehr auf das Kommentarfeld.

… und ja, man muss, wenn man Kommentare absetzen will, JS aktiviert haben.

Rob
Gast
Rob
2 Jahre 8 Monate her

Die Information ist gut geschrieben. Jedoch muss inzwischen angemerkt werden, dass google mal wieder die Finger im Spiel (bekommen) hat. Man kan heute nur am reCaptcha teilnehmen, wenn main ein Google (Mail)Konto hat. Ich verweigere mich.

Ulrike Benz
Gast
Ulrike Benz
9 Monate 17 Tage her

Wie kann man den über Google nach Seiten mit einem Captcha oder recaptcha suchen. Als Laie meine ich.

Irmgard Kronsbein-Bellchambers
Gast
Irmgard Kronsbein-Bellchambers
6 Monate 12 Tage her

Captcha (vom Penny Markt zum Beispiel) wird in Frankfurt von Computer-Saboteuren als eine Art „phishing“ und Identitätsklau genutzt. Da das Captcha am Ende kommt, nachdem ein Kunde seine sämtlichen Daten eingegeben hat, unterbricht die Frankfurter Mafia die Verbindung zum Captcha Server, damit es nicht „weiter“ geht, aber auch nicht zurück, dh die eingegebenen Daten stehen in der Luft und werden kurzerhand von Identitätsdieben übernommen, bei denen der Captcha dann plötzlich doch Verbindung zum Server aufnehmen kann.

wpDiscuz

Mit der Nutzung unseres Angebots erklärst du dich damit einverstanden, dass wir Cookies verwenden. Weitere Informationen

Wir verwenden Cookies, um Inhalte und Anzeigen zu personalisieren, Funktionen für soziale Medien anzubieten und die Zugriffe auf unsere Website zu analysieren. Dadurch geben wir nicht personenbezogene Informationen zur Nutzung unserer Website an unsere Partner für soziale Medien, Werbung und Analysen weiter. Nähere Informationen findest du in unserer Datenschutzerklärung. Durch die Weiternutzung unserer Website (oder das ausdrückliche Klicken auf "Einverstanden") gehen wir davon aus, dass du mit der Verwendung von Cookies einverstanden bist.

Schließen