Unterschiedlichste Bewertungssysteme begegnen uns täglich im weltweiten Netz. Hier gibst du ein „Daumen hoch”, da fünf Sterne, dort ein Herzchen, ein Like oder ein Plus. Doch nicht alles eignet sich für alles gleich gut.

Bewertungssysteme sind gut für die Plattform, die die Bewertungsmöglichkeit stellt und für die Person, die die Bewertung vornimmt. Da es bei der Bewertung stets darum geht, festzustellen, wie ein Angebot dem potenziellen oder bestehenden Kunden gefällt, haben beide Seiten Interesse daran. Der Deal dabei ist, dass uns die Plattform künftig mehr von dem, was uns gefällt und weniger von dem, was uns nicht gefällt, vorschlagen wird, wenn wir sie mit den entsprechenden Daten versorgen und sie dadurch (nicht nur) in die Lage versetzen, uns passende Angebote zu machen.

Vielmehr haben die Bewertungen für die Plattform durchaus eigene Vorteile. So kann die Plattform etwa besonders beliebte Produkte auch innerhalb der Gruppe der umsatzstarken Produkte besser ranken, oder ganz allgemein Forschungsdaten erheben, die sich nutzen und sogar vermarkten lassen. Der Nutzer, Kunde, Leser freut sich über gute Vorschläge, die häufig auf Produkte hinweisen, die zuvor noch nicht im Fokus des Nutzers standen.

In der Vergangenheit setzten gefühlte 100 Prozent der Marken, die mit Bewertungssystemen arbeiten, auf das Sterne-System. Hier wird eine Bewertung dergestalt vorgenommen, dass der Bewerter einem Produkt eine bestimmte Zahl von Sternen zuweist. Die Zahl der möglichen Sterne schwankt zwischen fünf und zehn, wobei sich die meisten Systeme, die aktuell noch mit Sternen arbeiten, inzwischen auf fünf reduzieren. Fünf Sterne erlauben eine balancierte Bewertung mit der Drei als Durchschnittsvotum und zwei besseren, sowie zwei schlechteren Optionen.

Neben den Sterne-Bewertungen setzt sich immer mehr die klare Bewertung mit zwei Alternativen, nämlich „Daumen hoch” oder „Daumen runter” oder Derivate davon durch. Auch die Sterne-Bewertung gibt es in Varianten, etwa mit Emojis statt Sternen. So soll das Icon an sich schon eine Bewertung nahelegen. Im Urlaubskontext oder im politischen Raum werden Bewertungen häufig nach dem Muster „Stimme voll zu”, „Stimme nicht zu” und so weiter vorgenommen. Ebenso häufig wird der Grad der Zufriedenheit nach einer festgelegten Skala abgefragt.

Unter dem Gesichtspunkt der Benutzererfahrung sind die verschiedenen Bewertungssysteme nicht eindeutig als gut oder schlecht zu klassifizieren. Es kommt immer darauf an, was mit dem System erreicht werden soll.

Der Trend geht zum Daumen-System

Jahrelang setzte Netflix auf das Sterne-Bewertungssystem. Zwischenzeitlich wechselten die Film-Provider auf die klarere Methode des „Daumen hoch/Daumen runter”. Netflix begründete diesen Schritt damit, dass das neue System in A/B-Tests eine um 200% höhere Interaktionsrate erzielen konnte als das vormalige.

Mit einer etwas aussagefähigeren Begründung hat der Video-Riese YouTube schon weit früher Abschied vom Sterne-System genommen. Dort konnte nachgewiesen werden, dass im Grunde ohnehin nur die Maximal- und – weit seltener – die Minimalwertung vergeben wurde. Das führte letztlich dazu, dass die meisten Videos als ganz toll gekennzeichnet waren, was die Aussagekraft der Bewertungen verpuffen ließ. Mit dieser sehr simplen Grafik erläuterte YouTube die Problematik:

Das Phänomen ist als J-Kurve bekannt geworden und hat mehrere Dimensionen, wobei Psychologie stets eine Rolle spielt.

Generell bewerten Personen mit größter Wahrscheinlichkeit Produkte nur in zwei Fällen. Entweder sie sind begeistert oder zutiefst enttäuscht. Sind sie indes lediglich zufrieden, finden das Produkt ganz okay oder entspricht es nur voll und ganz den Erwartungen, so ist die Chance, dass eine Bewertung abgegeben wird, minimal.

Dazu kommt, dass wir alle in der Schule jahrelang mit Bewertungssystemen gequält wurden. Dabei haben wir gelernt, dass alles unterhalb einer Zwei eigentlich schlecht ist. Selbst wenn wir uns am Ende gezwungenermaßen mit einer Drei oder einer Vier abfinden mussten, blieb die Konditionierung doch bestehen. Davon zeugt die folgende Illustration der Seite XKBD:

Der Trend geht daher generell zum einfachen Daumen-System. Hier haben wir genau zwei Alternativen: Ja oder Nein, Gut oder Schlecht, Hot oder Not, Lieben oder Hassen. Damit kann jeder etwas anfangen und muss nicht lange nachdenken. Das Daumen-System ist emotional gesteuert, während das Sterne-System Differenzierung erfordert. Ist das Produkt jetzt sehr gut oder nur gut oder doch eher befriedigend?

Ist das Sterne-System damit dem Untergang geweiht? Nein, es ist in manchen Bereichen die beste Alternative, in den meisten jedoch nicht. In allen Bereichen, wie etwa bei der Bewertung eines Songs, wie hier auf Deezer, in denen klar aus zwei Alternativen gewählt werden kann, sollte das auch erfolgen:

Auf YouTube ergibt es ebenso wenig Sinn, ein komplizierteres Verfahren zu wählen. Das wird besonders deutlich, wenn wir als Beispiel eines der wohl polarisierendsten Videos der jüngeren Vergangenheit wählen:

Die Domäne der 5-Sterne-Bewertungen

Geht es hingegen um komplexere Produkte, wie Waschmaschinen, Smartphones, Möbel und so weiter, reicht das simple Daumen-System nicht aus. Hier fehlt es an Differenzierung. Deshalb setzen große Marktplätze wie Amazon oder Otto.de nach wie vor auf eine Kombination aus 5-Sterne-Bewertung plus Rezension. Die angehängte Rezension erlaubt es, die gewählte Sternen-Anzahl genauer zu erläutern. Welche Aspekte haben sich wie auf die Bewertung ausgewirkt?

Durch die Vielzahl an zu lesenden Rezensionen ergibt sich allerdings ebenfalls ein Problem. Denn das Sterne-System reflektiert immerhin nicht gezielt die Punkte, die individuelle Kunden wohlmöglich an einer Waschmaschine interessieren. Also suchen diese Kunden mühsam in den Rezensionstexten nach diesem Merkmal, etwa der Waschleistung oder der Stromaufnahme.

Otto.de führte zwischenzeitlich ein verbessertes System ein, das eben diese Probleme beseitigen soll. Mit Hilfe von Technologien aus dem Bereich der künstlichen Intelligenz strukturiert Otto.de die Kundenrezensionen und erlaubt die Suche nach eben jenen erwähnten Merkmalen, ohne dabei auf das Sterne-System zu verzichten.

Amazon versucht das Problem dadurch zu lindern, dass wiederum die Rezensionen bewertet werden können, dann aber nur noch unter dem Aspekt „Hilfreich: Ja/Nein”. Zudem ist es möglich, die Kommentare zu kommentieren. Ottos Ansatz ist da weitaus fortschrittlicher und für den potenziellen Kunden zeitsparender.

Neben der differenzierten Bewertung komplexer Produkte gibt es einen weiteren Anwendungsfall, in dem das Sterne-System seine Berechtigung hat. Nämlich immer da, wo sich User gegenseitig bewerten, um die Transaktionsqualität zu beschreiben. Hier verstehen die Nutzer in aller Regel, dass es von Bedeutung ist, klar und gezielt zu differenzieren, um den Nutzen für andere Teilnehmer hoch zu halten.

Der größte Marktplatz der Welt, nämlich eBay, setzt zwar nicht auf das Sterne-System, bietet aber mit einer reduzierten Wahlmöglichkeit auf „positiv”, „neutral” und „negativ” ebenfalls die Möglichkeit der hinreichenden Differenzierung.

Varianten für bestimmte Zwecke

Soll mit der Bewertung eine bestimmte Emotion abgefragt werden, werden häufig Emoji-Skalen eingesetzt. Der Vorteil daran ist, dass das Emoji selber schon erklärt, wofür es steht. Der Ansatz ist sehr spielerisch und daher besonders für das jüngere Publikum geeignet.

Ebenso können natürlich Varianten gebildet werden, die Zufriedenheit oder Zustimmung graduell abbilden. Ebenfalls einiger Beliebtheit erfreuen sich in jüngster Zeit Bewertungssysteme auf Slider-Basis. Hier wird auf einer Schiebeskala der entsprechende Wert gewählt.

Schlussendlich ist das omnipräsente „Gefällt mir” auf diversen sozialen Medien, wie etwa Twitter, auch eine Form eines Bewertungssystems. Um den Charakter eines sozialen Netzwerks nicht zu gefährden, besteht hier die Wahlmöglichkeit zumeist nur darin, einem Post das Gefallen auszudrücken. Für die kommunikative Zielsetzung dieser Plattformen reicht das völlig.

Fazit: Wähle weise

Als Fazit lässt sich sehr gut Radio Eriwan zitieren.

Frage: „Welches Bewertungssystem soll ich wählen?”

Antwort: „Es kommt darauf an.”

Unter dem Gesichtspunkt der Benutzererfahrung muss das gewählte Bewertungssystem erwartungsgemäß sein und darf nicht zu angestrengtem Grübeln hinsichtlich dessen Sinnhaftigkeit führen.

Methoden des Machine Learning werden es künftig erlauben, stets mit einfachen Alternativen zu arbeiten, die dann mittels KI weiter unterfüttert werden. Das genannte Beispiel Otto.de ist nur der Anfang dieser Entwicklung.

(Bildnachweis Artikelbild: Depositphotos)