PageRank-Algorithmus

Der PageRank- ist ein Verfahren, eine Menge verlinkter Dokumente, wie beispielsweise das World Wide , anhand ihrer Struktur zu bewerten bzw. zu gewichten. Dabei wird jedem Element ein Gewicht, der PageRank, aufgrund seiner Verlinkungsstruktur zugeordnet. Der Algorithmus wurde von Larry Page (daher der Name PageRank) und Sergei Brin an der Stanford University entwickelt und von dieser zum Patent angemeldet. Er diente der Suchmaschine des von Brin und Page gegründeten Unternehmens Inc. als Grundlage für die von Seiten.

Der ist eine spezielle Methode, die Linkpopularität einer Seite bzw. eines Dokumentes festzulegen. Das Grundprinzip lautet: Je mehr Links auf eine Seite verweisen, umso höher ist das Gewicht dieser Seite. Je höher das Gewicht der verweisenden Seiten ist, desto größer ist der Effekt. Das Ziel des Verfahrens ist es, die Links dem Gewicht entsprechend zu sortieren, um so eine Ergebnisreihenfolge bei einer Suchabfrage herzustellen, d.h. Links zu wichtigeren Seiten weiter vorne in der Ergebnisliste anzuzeigen.

Der PageRank-Algorithmus bildet einen zufällig durch das Netz surfenden Benutzer nach. Die Wahrscheinlichkeit, mit der dieser auf eine Webseite stößt, korreliert mit dem PageRank.

Der PageRank-Algorithmus

Das Prinzip des PageRank-Algorithmus ist, dass jede Seite ein Gewicht (PageRank) besitzt, das umso größer ist, je mehr Seiten (mit möglichst hohem eigenem Gewicht) auf diese Seite verweisen. Das Gewicht PRi einer Seite i berechnet sich also aus den Gewichten PRj der auf i verlinkenden Seiten j. Verlinkt j auf insgesamt Cj verschiedene Seiten, so wird das Gewicht von PRj anteilig auf diese Seiten aufgeteilt.

Dabei ist N die Gesamtanzahl der Seiten und d ein Dämpfungsfaktor zwischen 0 und 1, mit dem ein kleiner Anteil des Gewichts (1 – d) einer jeden Seite abgezogen und gleichmäßig auf alle vom Algorithmus erfassten Seiten verteilt wird. Dies ist notwendig, damit das Gewicht nicht zu Seiten “abfließt”, die auf keine andere Seite verweisen.

Der heute von Google verwendete Algorithmus hat vermutlich nicht mehr exakt diese Form, geht aber auf diese Formel zurück. Alternative Algorithmen sind das Verfahren der Hubs und Authorities von Jon Kleinberg, der Hilltop- und der TrustRank-Algorithmus.

Zufallssurfer-Modell
Das Zufallssurfermodell (engl. Random Surfer Model) bietet eine alternative Interpretation des Page-Rank-Algorithmus, welche aus der Stochastik kommt. Normiert man den PageRank auf 1, so kann man das Gewicht einer Seite als Wahrscheinlichkeit interpretieren, dass ein zufälliger Surfer (Zufallspfad) sich auf dieser Seite befindet. Ein zufälliger Surfer bewegt sich durch das Netz, indem er mit der Wahrscheinlichkeit d {\displaystyle d} d zufällig einen der ausgehenden Links der aktuellen Seite wählt. Mit Wahrscheinlichkeit 1 − d {\displaystyle 1-d} 1-d wählt er eine beliebige neue Seite. Das Modell kann als Markow-Kette verstanden werden, der normierte Page-Rank ist dann die Stationäre Verteilung dieser Kette.

Rational Surfer Modell
Das Rational Surfer Modell ist ein von Google 2010 eingereichtes Patent. Es stellt eine Weiterentwicklung des Zufallssurfermodells dar. Hierbei wird die Wichtigkeit eines Links je nach Platzierung nach empirischen Daten unterschieden. Ziel ist es, Links stärker zu gewichten, welche von einem rationalen Surfer mit höherer Wahrscheinlichkeit geklickt werden. Somit soll Linkkauf entgegengewirkt werden.

Geschichte

Die Idee des PageRank-Algorithmus stammt ursprünglich aus der Soziometrie und lässt sich in der Fachliteratur erstmals 1953 bei Katz nachweisen. Bereits 1949 verwendete Seeley das Verfahren zur Erklärung des Zustandekommens des Status eines Individuums, allerdings gibt es in seiner Beschreibung noch keine Normierung auf die Anzahl der ausgehenden Kanten und keinen Dämpfungsterm. Letzterer wurde 1965 von Charles H. Hubbell eingeführt.

Brin und Page entwickelten den Algorithmus 1996 an der Stanford University. Page meldete 1997 ein Patent an, das auf die Stanford University eingetragen war. Zusammen veröffentlichten Brin und Page den Algorithmus 1998. In ihrer Originalarbeit zitieren sie Massimo Marchiori (Universität Padua, Entwickler von Hyper Search), Eugene Garfield, der in den 1950er Jahren citation analysis entwickelte, und Jon Kleinberg, der etwa gleichzeitig wie Brin und Page „Hubs und Authorities“ (HITS) entwickelte.

Neben Brin und Page entwickelte nicht nur Kleinberg, sondern auch Robin Li um 1996 in China einen ähnlichen Algorithmus (RankDex), den er bei der Suchmaschine Baidu verwendete (Patent 1999).

Nach der Google-Gründung erhielt die Stanford University von Google 1,8 Millionen Anteile für das Patent, das exklusiv an Google ging. 2005 verkauften sie die Aktien für 336 Millionen Dollar.

Forscher der Washington State University geben an, dass Googles PageRank-Algorithmus auch dazu geeignet sein kann, die geometrische Ausrichtung von Wassermolekülen relativ zu anderen Molekülen in einer Lösung, z. B. denen giftiger Chemikalien näherungsweise zu berechnen.

Toolbar- und Verzeichnis-Werte

Informationen über den PageRank lassen sich aus der Google Toolbar und dem Google-Verzeichnis entnehmen. Der von Google in der Toolbar angezeigte PageRank liegt zwischen 0 und 10. Der im Google-Verzeichnis angegebene Wert lag bis Anfang 2008 zwischen 0 und 7, entspricht inzwischen aber dem in der Toolbar angezeigten Wert. Die angezeigten Werte bilden den realen PageRank auf einer logarithmischen Skala ab und geben das Ergebnis als gerundeten ganzzahligen Wert wieder.

Der in der Google-Toolbar angezeigte PageRank wurde früher alle dreißig Tage aktualisiert. Inzwischen wird das Intervall zwischen den Updates sehr unregelmäßig durchgeführt, die Intervalllänge schwankt dabei zwischen etwas weniger als dreißig bis zu über hundert Tagen. Die letzte Aktualisierung des PageRank wurde von Google am 6. Dezember 2013 durchgeführt.

Google hat mittlerweile den Toolbar PageRank endgültig abgeschafft und die Auslieferung der entsprechenden Daten eingestellt. Somit ist der PageRank für Webseitenbetreiber nicht mehr öffentlich einsehbar. Intern wird Google die Daten für die Algorithmen jedoch weiterhin nutzen.

Manipulation

Aufgrund der wirtschaftlichen Bedeutung ist es inzwischen zu gezielten Manipulationen und Fälschungen gekommen. So wurde das System in der Praxis von durch Suchmaschinen-Spamming in Gästebüchern, Blogs und Foren, dem Betreiben von Linkfarmen und anderen unseriösen Methoden unterlaufen. Hierzu gehört unter anderem die Möglichkeit, den in der Toolbar angezeigten PageRank einer niedrig eingestuften Seite durch Weiterleitung auf eine bestehende Seite mit hohem PageRank zu spiegeln.

Die Weiterleitung bewirkt ein Kopieren der Anzeige des hohen der Zielseite mit dem folgenden Update. Wird die Weiterleitung anschließend entfernt, so wird dem Besucher für die Dauer des dann laufenden Intervalls der eigentliche Seiteninhalt in Verbindung mit dem gespiegelten PageRank präsentiert. Der eigentliche PageRank-Wert und das Ranking im Suchalgorithmus ist hiervon unberührt, lediglich die Anzeige wird manipuliert. Dies kann beispielsweise in betrügerischer Absicht dafür genutzt werden, beim Verkauf der Domain oder von Links einen höheren Preis zu erzielen.

Anfang 2005 implementierte Google mit rel=”nofollow” ein neues Attribut für Verweise, als Versuch, gegen Spam vorzugehen. Links, die mit diesem Attribut versehen werden, werden nicht für die PageRank-Berechnung berücksichtigt. Durch Kennzeichnung ausgehender Links kann so beispielsweise dem Gästebuch-, - und Forum-Spamming entgegengewirkt werden.

Allerdings ist diese Methode umstritten, da zum einen nicht alle Suchmaschinen das Attribut beachten und zum anderen die Links zwar nicht für die PageRank-Berechnung berücksichtigt werden, die verlinkten Seiten jedoch von den meisten Suchmaschinen weiterhin gecrawlt werden.

Kritik

Die Nachteile von PageRank im Überblick:

  • Entscheidend ist nicht das Interesse der Leser, sondern lediglich das anderer Webseitenbetreiber.
  • Finanzkräftige Seitenbetreiber können sich Backlinks erkaufen und werden dadurch in Suchergebnissen höher positioniert. Dies führt dazu, dass statt qualitativ hochwertigen Inhalts oft die finanziellen Möglichkeiten über die Reihenfolge der entscheiden.
  • Webmaster sehen oft im PageRank das einzige Bewertungskriterium für den Linktausch. Der Inhalt der verlinkten Seiten gerät in den Hintergrund.
  • Der PageRank liefert keinen Beitrag zur qualitativen Messung von Websites.

Quelle: (://de..org/wiki/Pagerank)

 

Related Posts

Fernwartung
Let’s Encrypt
Open-Source