Anzeige
Smartes Cloud Hosting für anspruchsvolle Projekte.
↬ Loslegen und Spaces testen ↬ Jetzt testen!
Dieter Petereit 27. Oktober 2008

MAMA: Operas Projekt bringt Analysen für Webentwickler

Kein Beitragsbild

MAMA ist ein ambitioniertes, mit erstaunlich langem Atem betriebenes Projekt der kleinen skandinavischen Browserschmiede Opera. MAMA wird eine Suchmaschine für diejenigen unter uns, die sich tagtäglich mit der strukturellen Seite des Web auseinandersetzen müssen. MAMA sucht nicht danach, „was“ im Web steht, sondern „wie“ es im Web steht. Klingt interessant, oder?

Wix Webseiten — echt superpraktisch. ↬ Mehr erfahren

Was ist MAMA?

Derzeit ist MAMA (Metadata Analysis and Mining Application), zumindest hinsichtlich des bisher nutzbaren Teils, lediglich eine Studie über den strukturellen Zustand des Web. Das ist interessant, aber interessanter ist die Vision, die die Entwickler verfolgen. Bereits innerhalb der nächsten Monate soll MAMA als Suchmaschine zugänglich werden. Sie könnten dann gezielt nach Seiten suchen, die bestimmte Strukturmerkmale verwenden. Sie suchen also nicht nach den Inhalten, sondern nach der Technik, mit der die Inhalte dargestellt werden. Wozu soll das gut sein?

Anzeige

Nun, der Browser-Hersteller wird den Nutzen einer solchen Applikation im Vorbeigehen erfassen, ebenso wie das Mitglied der Standardisierungsgremien. Aber auch der herkömmliche Webentwickler wird das Angebot gern in Anspruch nehmen. Ich gebe ein paar Beispiele.

Ihr Auftraggeber steht auf Flash und behauptet, jeder setze das ein. Sie sind aber der Auffassung, dass Flash auf seiner Site eher kontraproduktiv sein würde. Sie bemühen MAMA und weisen ihm nach, dass die Flash-Nutzung in Deutschland insgesamt seit Jahren rückläufig ist, schon jetzt nur noch 25 % aller Seiten flashed sind und dass die erfolgreicheren Sites seiner Branche zu 95 % kein Flash verwenden (das letzte Ergebnis ist geraten, der Rest ist MAMA).

Im Team gibt es Streit, weil sie bei einer Migration einer Website aus Kostengründen darauf verzichten wollen, sämtliche Tabledesigns auf CSS umzustellen. Ihr Kollege behauptet, Tables verwende heutzutage keiner mehr. MAMA gibt Ihnen Schützenhilfe und belegt, dass die drei Table-Tags (table, tr, td) sämtlich in der Top Ten der meist verwendeten HTML-Tags sind. Häufiger werden nur Tags, wie a oder img, sowie die unumgänglichen Tags, wie Head, HTML oder Body benutzt.

Natürlich können Sie MAMA, wenn es denn live geht, auch einfach benutzen, um sich Inspiration für die Umsetzung ähnlicher Projekte zu holen. Sie geben die favorisierte Technik vor und MAMA zeigt Ihnen Seiten, die sie verwenden.

Soweit ist es noch nicht. Wie gesagt, ist MAMA momentan lediglich eine Studie zum Thema Webstruktur. Aktuell beantwortet das Projekt statisch und auf der Basis veraltender Daten Fragen, die den Status Quo des WWW betreffen. So kann man, wie bereits erwähnt, etwas über die Häufigkeit des Einsatzes von Flash erfahren oder sich von der Omnipräsenz der Tabellenlayouts im heutigen Web überzeugen lassen. Genauso desillusionierend mag es für die Ambitionierteren sein, zu sehen, dass gerade einmal rund 4 % aller getesteten Seiten positiv durch den W3C Validator gelaufen sind, sowie, dass lediglich 50 % aller Seiten mit einem Behauptungsbadge, sie seien valide, tatsächlich auch den Test bestanden.

Wenn man dann noch zur Kenntnis nimmt, dass trotz großen Hypes aktuell lediglich etwas über 3 % aller getesteten Sites aus Deutschland Ajax, genauer das XMLHttpRequest-Objekt verwenden und CSS hauptsächlich für die Text-Auszeichnung, quasi als billiger Ersatz für das Font-Element genutzt wird, kann man schon depressiv werden. Erwähnte ich schon, dass das Tabellenlayout nach wie vor das Web dominiert? Werden Tabellen eingesetzt, dann typischerweise dreifach ineinander verschachtelt. Okay, ich möchte nicht weiter darauf rumhacken, deshalb schauen wir jetzt mal auf …

…die Zusammensetzung der Datenbasis

Wenn man bedenkt, dass Opera 3,5 Millionen URLs analysiert hat, stellt sich unweigerlich die Frage danach, welche das gewesen sind und warum genau diese und nicht etwa andere. Egal nämlich welche Studie zur Größe des WWW man in die Betrachtung nimmt, man stellt durchgängig fest, dass eine Stichprobe von 3,5 Mio URLs viel zu niedrig und statistisch nicht relevant sein kann. Jedenfalls werden das mit Berechtigung all diejenigen unter Ihnen sagen, die sich, wie ich, einige Semester mit Statistik beschäftigen mussten. Einerseits.

Andererseits reden wir über das Web. Das Web ist schon an sich keine homogene oder auch nur homogenisierbare Masse. Nicht einmal vollständig katalogisierbar ist es und ohnehin in ständigem Wandel befindlich. Folgen Sie mal spaßeshalber in Foren oder Blogs dem ein oder anderen älteren (älter als ein Jahr) Link. Sie werden sich vermutlich nicht einmal wundern, wie viele dahinterliegende Seiten mittlerweile den Weg allen Irdischens gegangen sind. Zumeist sind das jedoch Websites ohne größere gefühlte Relevanz. Und in der Tat haben die Macher des MAMA-Projekts sich auch ein Stück weit auf „gefühlte Relevanz“ verlassen.

In der Zeit nach MAMAs Geburt, Anfang des neuen Jahrtausends (2002 – 2004) nutzten die Entwickler eine URL-Datenbasis, die sie im Wesentlichen aus den verschiedenen Randomlink-Generatoren bei Yahoo zusammen gesammelt hatten. Es handelte sich also um eine echte Zufallsstichprobe. Schon damals war klar, dass eine reine Zufallsstichprobe in einer Gesamtgrößenordnung von rund 750.000 URLs absolut keine hieb- und stichfesten Ergebnisaussagen über den strukturellen Zustand des Web zulassen konnte. Und so empfanden die Entwickler die Stichprobe auch eher als Entwicklungsumgebung für die Verbesserung der verschiedenen MAMA-Analysetools.

Über die Jahre ist diese Stichprobe auf rund 500.000 URLs zusammen geschmolzen, was die Dynamik des Web selbst anhand einer so kleinen Stichprobe eindrücklich zeigt. Keine der auf diese Weise gewonnenen URLs findet sich jedoch in den aktuellen Ergebnissen des Projekts repräsentiert, es sei denn, sie war zufällig in der für die neuen Auswertungen benutzten Datenbasis enthalten.

Die aktuelle Datenbasis setzt sich zusammen aus dem Gesamtdatenbestand des Open Directory Project (Dmoz), der Liste der W3C-Mitglieder und der Alexa Global Top 500 List. Das DMoz wählten die Entwickler aus teils hemdsärmeligen Gründen. Ein wesentlicher Punkt war, dass es keinen größeren urheberrechtlichen Einschränkungen unterliegt, wie etwa die Indizes von Google und anderen. Ein ebenso relevanter Punkt war die freie Verfügbarkeit des Gesamtdatenbestandes als Downloaddatei. Weniger hemdsärmelig allerdings und als guter Grund geeignet war der Umstand, dass das DMoz teils die Basis, zumindest aber einen Kernbereich der Suchmaschinen von Google, Lycos, Hotbot und vielen anderen bildet. Nicht zuletzt gab die schiere Menge von über 4 Millionen von Hand ausgewählter und katalogisierter URLs einen wesentlichen Faktor ab.

Die Liste der W3C-Mitglieder wurde als eine Art Gegenprobe eingepflegt. Man ging davon aus, dass sich die Mitglieder des W3C auf ihren eigenen Websites stärker an Standards orientieren würden als andere (was sich aber nicht im erwarteten Umfang bestätigte). Der Einsatz der Alexa-Liste mit den 500 global populärsten Websites stellt für mich den Part dar, wo sich das MAMA-Projekt auf gefühlte Relevanz verlässt. Sicher muss man davon ausgehen, dass die 500 populärsten Websites nach Alexa-Zählung eine besondere Alltags-Relevanz und möglicherweise auch Repräsentativität für den Zustand des Web bieten könnten. Auf der anderen Seite fallen mir spontan einige Dutzend in Deutschland populäre Sites ein, die auf die Umsetzung struktureller Standards ungefähr soviel geben, wie ich freiwillig dem Finanzamt. Es ist daher nicht stringent logisch, vom Zustand der Topsites auf den Zustand des Web insgesamt zu schließen.

Diese Einschränkung gilt insgesamt. Niemand, außer dem auf dem Stand der Technik arbeiten wollenden Webdesigner, der an einem Webprojekt beteiligt ist, legt einen besonderen Fokus auf die Einhaltung von Standards. Wer muss, sieht noch zu, dass er eine weitestgehende Barrierearmut hinbekommt. Wer das nicht muss, lässt es in aller Regel, vor allem unter Kostengesichtspunkten.

Was bedeutet das nun für die MAMA-Datenbasis? Statistiker würden sie verwerfen. Praktiker werden sich mit der Auswahl unter Berücksichtigung der ganzen weichen Fakten anfreunden können. Alle verwendeten URLs sind nach dem Empfehlungsprinzip handverlesen. Im Grunde muss man sagen, dass die Datenbasis zwar systemische Fehler aufweist, aber keine machbare andere Datenbasis denkbar ist, die nicht wenigstens genauso fehlerbehaftet wäre. Die Alternative für die MAMA-Entwickler bestünde letztlich nur darin, das Projekt einzustampfen. Nehmen wir also, was wir kriegen können und warten auf das Public Going der MAMA als Suchmaschine live and on the scene… ™

Dieter Petereit

Dieter Petereit

ist seit 1994 im Netz unterwegs, aber bereits seit über 30 Jahren in der IT daheim. Seit Anfang des neuen Jahrtausends schreibt er für diverse Medien, hauptsächlich zu den Themenfeldern Technik und Design.

2 Kommentare

  1. Interessantes Tool, bin sehr gespannt es einmal testen zu können. Das es immer noch soviele Tabellen Layouts und nicht validierte Seiten gibt, war jedoch auch ohne MAMA schon bekannt. Trotzdem glaube ich, werden sich einige gute Verwendungszwecke für MAMA finden lassen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.