Tout savoir sur le PAGERANK

Qu'est-ce que PageRank et comment puis-je l'utiliser ?

Le Pagerank de Google

Le PageRank est ce que Google utilise pour déterminer l'importance d'une page web, sa notoriété. C'est l'un des nombreux facteurs utilisés pour déterminer quelles sont les pages qui vont apparaitre en premier dans les résultats de recherche.

L'histoire du PageRank

Le PageRank (PR pour les intimes) a été développé par les fondateurs de Google, Larry Page et Sergey Brin à Stanford en 1998. A cette époque, le rythme auquel le web se développait commençait à dépasser la capacité des moteurs de recherche pour ce qui était d'obtenir des résultats utilisables er pertinents. Les premiers moteurs de recherche ont été développés par des entreprises qui n'étaient pas intéressées à publier les détails de fonctionnement de leur algorithme. Mais au moment où Page et Brin se sont rencontré, on sait que les moteurs de recherche classaient généralement les pages en fonction de la densité des mots clés, ce qui signifie que les gens pouvaient déjouer le système en répétant la même phrase encore et encore pour que la page sorte bien classée sur cette expression.


Le PageRank est breveté par Stanford, et le nom PageRank est une invention de Larry Page.

Dans l'élaboration de Google, Brin et Page ont voulu, tout d'abord, améliorer la conception des moteurs de recherche en le déplaçant dans un environnement plus ouvert, le monde universitaire.

Naissance de Google... En savoir plus sur la naissance de Google (lire la suite)      Plus...

Qu'est-ce que mesure le PageRank ?

Le PageRank mesure la notoriété d'une page Web.

La théorie de Page et Brin est que les pages les plus importantes sur Internet sont les pages avec le plus de liens qui y conduisent.

Le PageRank considère les liens comme des votes, où une page qui fait un lien vers une autre page est un votant.

Cela est très logique, car les gens ont tendance à faire des liens vers un contenu pertinent et des pages avec plus de liens sont généralement mieux que les pages qui ne reçoivent des liens de personne.

Le PageRank ne s'arrête pas là. Il se penche également sur l'importance de la page qui contient le lien. Les pages avec un PageRank élevé ont plus de poids dans le "vote" que les pages avec un PageRank faible. Il se penche également sur le nombre de liens sortants présents sur la page d'origine. Plus le nombre de liens sortants est important et moins d'importance à chaque lien.

Ceci est une fois de plus tout à fait logique. Les pages qui sont importantes ont probablement une meilleure autorités en menant les internautes à de meilleures sources, et les pages qui ont plus de liens sont susceptibles d'être moins exigeantes sur l'endroit où les liens mènent.

Quelle est l'importance PageRank ?

Le PageRank est l'un des nombreux facteurs qui déterminent où votre page Web apparaît dans le classement des résultats de recherche, mais si tous les autres facteurs sont égaux, le PageRank peut avoir un impact significatif sur votre classement dans Google.

Y a-t-il des failles dans PageRank ?

Il y a certainement des failles dans le PageRank. Maintenant que les gens connaissent à peu près les secrets pour obtenir un PageRank plus élevé, les données peuvent être manipulées. Les Google Bombs sont des exemples classiques de manipulation du PageRank.

Les Farm-Links sont une autre méthode pour tenter de manipuler le PageRank. Une Farm Link est une pratique qui tend à faire des liens massifs sans se préoccuper de la pertinence des pages liées. Le système est souvent automatisé. Si vous êtes déjà tombé sur une page web qui n'était rien d'autre qu'une collection de liens vers d'autres sites au hasard, vous étiez sans doute dans une Farm Link.

Google a adapté ses calculs pour filtrer autant que possibles les fermes de liens. C'est une des raisons qui fait que soumettre votre site aux annuaires avec peu ou pas de PageRank peut être une très mauvaise idée car votre site peut se retrouver pénalisé si l'annuaire est considéré comme une Farm Link.

Si vous trouvez un lien vers votre site Web dans une Farm Link, ne paniquez pas. Dans la plupart des cas, cela n'a pas d'effet sur votre classement. Vous ne pouvez pas contrôler qui fait des liens vers vous. Il suffit de ne pas faire de lien vers les fermes de liens et de ne pas soumettre votre site volontairement chez eux. Google propose également un formulaire pour désavouer des liens.

Comment puis-je voir le PageRank ?

Le PageRank est mesuré sur une échelle de 1 à 10 et attribué à des pages individuelles au sein d'un site web, pas au site entier. Pour trouver le PageRank d'une page on peut utiliser la Google Toolbar qui en donne une approximation. Très peu de pages ont un PageRank de 10, d'autant plus que le nombre de pages sur Internet augmente. En 10 ans le PageRank a tendance à diminuer pour des pages recevant le même nombre de liens qu'il y a 10 ans. Le nombre de sites étant plus important il faut recevoir plus de liens pour avoir le même PageRank qu'avant.

Comment puis-je augmenter mon PageRank ?

Si vous voulez augmenter votre PageRank, vous devez avoir des « back-links », c'est à dire des sites qui font des liens vers les pages de votre site. Vous pouvez échanger des liens avec d'autres personnes, mais assurez-vous que les liens commerciaux sont pertinents, et assurez-vous que les liens sont effectués « en dur » et non en javascript. Vous pouvez inscrire votre site web dans des annuaires, comme DMOZ ou l'annuaire de webrankinfo. Il vous faut utiliser des répertoires avec le PageRank le plus élevé possible.

Les liens internes comptent aussi. Quand vous ajoutez de nouvelles pages à votre site il vous faut les relier à d'autres pages pertinentes au sein de votre propre site. Cependant, n'oubliez pas que le nombre de liens que vous créez compte dans l'équation. N'en faites pas trop. Et vous ne pourrez transmettre vers d'autres pages que le PageRank reçu. Vous ne pouvez pas en créer plus que vous avez. Mais un maillage interne judicieux peux vous servir à canaliser tout votre PageRank vers certaines pages précises de votre site, la page d'accueil par exemple, et ainsi augmenter le PageRank de cette page.

La meilleure façon d'augmenter votre PageRank est d'avoir un contenu de qualité qui va inciter les autres personnes à faire des liens vers vos pages, dans des forums par exemple.

Le maillage interne... En savoir plus sur le maillage interne (lire la suite)      Plus...

Comment Google calcule son PAGERANK ?

Comme nous le verrons, l'astuce consiste à demander au web lui-même de classer l'importance des pages ...

Imaginez une bibliothèque contenant 25 milliards de documents, mais sans organisation centralisée et aucun bibliothécaires. En outre, n'importe qui peut ajouter un document à tout moment sans rien dire à personne. Vous pouvez avoir la conviction que l'un des documents contenus dans la collection a un élément d'information qui est extrêmement important pour vous, et, étant impatient comme la plupart d'entre nous, vous aimeriez le trouver en quelques secondes. Comment feriez-vous pour le faire ?

Posée de cette façon, le problème semble impossible. Pourtant, cette description n'est pas trop différente du World Wide Web, une collection énorme, très désorganisée de documents dans de nombreux formats différents. Bien sûr, nous sommes tous familiers avec les moteurs de recherche (peut-être avez vous trouvé cet article en utilisant Google), donc nous savons qu'il y a une solution. Cet article décrit l'algorithme PageRank de Google et comment il retourne la page de la collection de la toile de 25 milliards de documents qui correspond aux critères de recherche. Et il le fait si bien que "google" est devenu rapidement le moteur le plus utilisé au monde.

La plupart des moteurs de recherche, y compris Google, lancent continuellement une armée de programmes informatiques qui récupèrent les pages du web, indexent des mots dans chaque document, et stockent ces informations dans un format propriétaire efficace. Chaque fois qu'un utilisateur demande une recherche sur le Web en utilisant une phrase de recherche, comme "moteur de recherche", le moteur de recherche détermine toutes les pages du Web qui contient les mots et l'expression de recherche. (Peut-être aussi des informations supplémentaires comme la distance entre les mots «recherche» et «moteur»). Voici le problème : Google prétend maintenant indexer 25 milliards de pages. Environ 95% du texte dans les pages Web se compose de 10.000 mots. Cela signifie que, pour la plupart des recherches, il y aura un grand nombre de pages contenant les mots dans l'expression de recherche. Ce qui est nécessaire est un moyen de mesurer l'importance des pages qui correspondent aux critères de recherche afin que les pages puissent être triés en faisant figurer les plus importantes au sommet de la liste.

Une façon de déterminer l'importance des pages est d'utiliser un classement généré par l'homme. Par exemple, vous avez pu voir des pages qui se composent principalement d'un grand nombre de liens vers d'autres ressources dans un domaine d'intérêt particulier. En supposant que la personne chargée de maintenir cette page est fiable, les pages référencées sont susceptibles d'être utiles. Bien sûr, la liste peut rapidement ne plus être à jour, et la personne chargée de la tenue de la liste peut rater quelques pages importantes, que ce soit par inadvertance ou de façon réfléchie et volontaire.

L'algorithme PageRank de Google évalue l'importance des pages web sans évaluation humaine du contenu.

En fait, Google estime que la valeur de son service est en grande partie dans sa capacité à fournir des résultats impartiaux aux requêtes de recherche.

Google affirme : « le cœur de notre logiciel est le PageRank ». Comme nous le verrons, l'astuce consiste à demander au web lui-même de classer l'importance des pages.

Comment savoir quelles pages sont importantes ?

Si vous avez déjà créé une page web, vous avez probablement inclus des liens vers d'autres pages qui contiennent des renseignements précieux et fiables. En faisant cela, vous affirmez l'importance des pages vers lesquelles vous faites des liens. L'algorithme PageRank de Google organise un concours de popularité mensuel parmi toutes les pages sur le web pour décider quelles pages sont les plus importantes. L'idée fondamentale mis en avant par les créateurs du PageRank, Sergey Brin et Lawrence Page, est la suivante: l'importance d'une page est jugée par le nombre de pages pointant vers elle, ainsi que leur importance.

Nous allons attribuer à chaque page Web P une mesure de sa popularité appelée PR(P), c'est le PageRank de la page. Sur différents sites, vous pouvez trouver une approximation du PageRank d'une page. Cette approximation correspond à une échelle de 0 à 10. Il s'agit simplement d'une approximation car Google refuse de publier les PageRank réels dans le but de frustrer ceux qui tenteraient de manipuler les classements.

Voici comment le PageRank est déterminé. Supposons que la page Pj comporte L Liens j. Si un de ces liens est pour la page Pi, alors Pj passera le 1 / Lj de son PR pour Pi. Le classement de la notoriété de Pi est alors la somme de toutes les contributions faites par les pages qui y font référence. Autrement dit, si nous désignons l'ensemble des pages faisant un lien vers Pi par Bi, la notoriété de la page Pi est la somme suivante :

formule du Pagerank


Cela peut vous rappeler l'histoire de la poule et de l'œuf : pour déterminer la notoriété d'une page, il faut d'abord connaître la notoriété de toutes les pages qui y font référence. Cependant, nous pouvons reformuler le problème en un seul qui est mathématiquement plus familier.

Créons d'abord une matrice, appelée matrice de lien hypertexte, matrice du Pagerank dans lequel l'entrée dans la ième ligne et la jème colonne est

matrice pagerank

Notez que H a des propriétés spéciales. Tout d'abord, ses entrées sont toutes positives ou nulles. En outre, la somme des entrées d'une colonne est 1, sauf si la page correspondant à cette colonne n'a pas de liens. Il s'agit d'une matrice qu'on appelle stochastique.

Nous allons également former un vecteur Vecteur Pagerank dont les composantes sont les PageRanks de toutes les pages. La condition ci-dessus définissant le PageRank peut être exprimée de cette manière :


En d'autres termes, le vecteur I est un vecteur propre de la matrice H de valeur propre 1. Ce vecteur s'appelle un vecteur stationnaire de H.

Regardons un exemple. Ci-dessous est une représentation d'une petite collection (huit) de pages Web avec des liens représentés par des flèches.

matrice pagerank

La matrice correspondante est

matrice pagerank

avec le vecteur stationnaire

matrice pagerank

Cela montre que la page 8 remporte le concours de popularité. Voici le même chiffre avec les pages web ombragées de telle manière que les pages avec un PageRank plus élevés sont d'une couleur plus claire.

matrice pagerank

Le reste du calcul devient très compliqué et pour résumer on peut dire ceci :

Nous assumons qu’une page j reçoit des liens (ou "votes") émis par les pages P1...Pn.
Le paramètre d est un facteur d’amortissement pouvant être ajusté entre 0 et 1.
Nous donnons généralement à d la valeur 0.85.
De même,  Lj est défini comme le nombre de liens émis par la page j (liens sortants).
Le PageRank de la page j est défini comme suit :

PR(j) = (1-d) + d (PR(P1)/L(P1) + ... + PR(Pn)/L(Pn))

Le PageRank peut être calculé en utilisant un simple algorithme itératif, et correspond au vecteur propre principal de la matrice normalisée des liens du Web.

Le calcul du PageRank d’une page peut être effectué sans connaître le PR final des pages émettant un lien vers elle. Cela peut sembler paradoxal, mais chaque itération fait converger les résultats vers une valeur de plus en plus précise. La seule chose à faire, est de retenir la valeur obtenue pour pouvoir démarrer l’itération suivante avec cette dernière. 50 à 100 itérations sont nécessaires pour obtenir une bonne approximation du PR. Le calcul prend quelques jours pour s'effectuer.

C’est ici que le facteur d’amortissement joue son rôle. S’il est choisi trop élevé, le calcul demandera un nombre d’itérations énorme, alors que s’il est trop bas les valeurs ne convergeront pas véritablement, mais finiront par osciller autour de la vraie valeur théorique, un peu à la manière d’un pendule.

Avec un facteur d’amortissement de 0.85, il faut à Google 50 à 100 itérations pour affiner le calcul de son PageRank.

La Google Dance : la mise à jour du PR

Bien sûr, le web est en constante évolution. Tout d'abord, le contenu des pages Web, en particulier les agences de presse, peut changer fréquemment. En outre, la structure de lien hypertexte sous-jacente des changements web que les pages sont ajoutées ou supprimées et les liens sont ajoutés ou supprimés. On murmure que Google recalcule le vecteur PageRank environ tous les mois. C'était appelé dans le milieu du SEO par le terme de Google Dance.

A partir de 2002, la fréquence des Google Dance a été accélérée, pour qu’aujourd’hui, le reclassement des résultats soit en quasi temps réel, tuant ainsi le principe de Google Dance.

Le besoin de temps réel sur le web semble aujourd’hui évident. Il semblerait que ça soit venu du fait que le 11 septembre 2001 à la requête « Twin Tower », Google ne retournait que des pages touristiques.

Cependant, il a fallut attendre 2004, pour que Matt Cutts (l'un des responsables de Google), annonce la fin de cette fameuse Google Dance à la BBC.

Cette même année, des études confirment la tendance de l'évolution de l'algorithme pour prendre en compte la fraîcheur des informations.

Quelques sources et références

Une page en anglais qui explique comment le PageRank est calculé :
http://www.ams.org/samplings/feature-column/fcarc-pagerank
une page en français :
http://www.webmaster-hub.com/publication/L-algorithme-du-PageRank-explique.html

Revenir en haut de cet article consacré au PageRank de Google.