Google PageRank expliqué pour les débutants en référencement

Célébrez les vacances avec certains des meilleurs articles de SEJ de 2023.

Notre série Festive Flashback se déroule du 21 décembre au 5 janvier, avec des lectures quotidiennes sur des événements importants, des fondamentaux, des stratégies concrètes et des opinions de leaders d’opinion.

2023 a été assez mouvementée dans l’industrie du référencement et nos contributeurs ont produit des articles exceptionnels pour suivre le rythme et refléter ces changements.

Découvrez les meilleures lectures de 2023 pour vous donner de quoi réfléchir à l’approche de 2024.


Le PageRank était autrefois au cœur même de la recherche – et c’est ce qui a fait de Google l’empire qu’il est aujourd’hui.

Même si vous pensez que la recherche a évolué du PageRank, il est indéniable qu’il s’agit depuis longtemps d’un concept omniprésent dans l’industrie.

Chaque professionnel du référencement devrait avoir une bonne compréhension de ce qu’était le PageRank – et de ce qu’il est encore aujourd’hui.

Dans cet article, nous aborderons :

  • Qu’est-ce que le PageRank ?
  • L’histoire de l’évolution du PageRank.
  • Comment le PageRank a révolutionné la recherche.
  • Barre d’outils PageRank vs PageRank.
  • Comment fonctionne le PageRank.
  • Comment le PageRank circule entre les pages.
  • Le PageRank est-il toujours utilisé ?

Allons-y.

Qu’est-ce que le PageRank ?

Créé par les fondateurs de Google Larry Page et Sergey Brin, le PageRank est un algorithme basé sur la force relative combinée de tous les hyperliens présents sur Internet.

La plupart des gens affirment que le nom était basé sur le nom de famille de Larry Page, tandis que d’autres suggèrent que « Page » fait référence à une page Web. Les deux positions sont probablement vraies et le chevauchement était probablement intentionnel.

Lorsque Page et Brin étaient à l’Université de Stanford, ils ont rédigé un article intitulé : Le classement des citations PageRank : mettre de l’ordre sur le Web.

Publié en janvier 1999, l’article présente un algorithme relativement simple pour évaluer la solidité des pages Web.

Le document est ensuite devenu un brevet aux États-Unis (mais pas en Europe, où les formules mathématiques ne sont pas brevetables).

du début à la fin du processus de classement des pages

L’Université de Stanford est propriétaire du brevet et l’a cédé à Google. Le brevet expire actuellement en 2027.

processus pantent du pagerank

L’histoire de l’évolution du PageRank

Durant leur séjour à Stanford, à la fin des années 1990, Brin et Page étudiaient les méthodes de recherche d’informations.

À cette époque, utiliser des liens pour déterminer l’importance de chaque page par rapport à une autre était une façon révolutionnaire d’ordonner les pages. C’était informatiquement difficile mais en aucun cas impossible.

L’idée s’est rapidement transformée en Google, qui à l’époque était un vairon dans le monde de la recherche.

Il y avait tellement de confiance institutionnelle dans l’approche de Google de la part de certaines parties que l’entreprise a initialement lancé son moteur de recherche sans aucune capacité à générer des revenus.

Et tandis que Google (connu à l’époque sous le nom de « BackRub ») était le moteur de recherche, le PageRank était l’algorithme qu’il utilisait pour classer les pages dans les pages de résultats des moteurs de recherche (SERP).

La danse Google

L’un des défis du PageRank était que les calculs, bien que simples, devaient être traités de manière itérative. Le calcul est exécuté plusieurs fois, sur chaque page et chaque lien sur Internet. Au tournant du millénaire, ce calcul prenait plusieurs jours.

Les SERP de Google ont augmenté et diminué pendant cette période. Ces changements étaient souvent irréguliers, car de nouveaux PageRanks étaient calculés pour chaque page.

C’était connu sous le nom de « Google Dance », et cela arrêtait notoirement les professionnels du référencement de l’époque dans leur élan à chaque fois que Google commençait sa mise à jour mensuelle.

(La Google Dance est devenue plus tard le nom d’une fête annuelle organisée par Google pour les experts en référencement à son siège social de Mountain View.)

Semences de confiance

Une itération ultérieure du PageRank a introduit l’idée d’un ensemble de « graines de confiance » pour démarrer l’algorithme plutôt que de donner à chaque page sur Internet la même valeur initiale.

Surfeur raisonnable

Une autre itération du modèle a introduit l’idée d’un « surfeur raisonnable ».

Ce modèle suggère que le PageRank d’une page pourrait ne pas être partagé de manière égale avec les pages vers lesquelles elle renvoie – mais pourrait pondérer la valeur relative de chaque lien en fonction de la probabilité qu’un utilisateur clique dessus.

Le retrait du PageRank

L’algorithme de Google était initialement considéré comme « anti-spam » en interne puisque l’importance d’une page était dictée non seulement par son contenu mais aussi par une sorte de « système de vote » généré par les liens vers la page.

La confiance de Google n’a cependant pas duré.

Le PageRank a commencé à devenir problématique à mesure que le secteur des backlinks se développait. Google l’a donc retiré de la vue du public, mais a continué à s’appuyer sur lui pour ses algorithmes de classement.

La barre d’outils PageRank a été retirée en 2016 et finalement, tout accès public au PageRank a été restreint. Mais à cette époque, Majestic (un outil de référencement), en particulier, était capable de corréler assez bien ses propres calculs avec le PageRank.

Google a passé de nombreuses années à encourager les professionnels du référencement à éviter de manipuler les liens via sa documentation « Google Guidelines » et grâce aux conseils de son équipe anti-spam, dirigée par Matt Cutts, jusqu’en janvier 2017.

Les algorithmes de Google ont également changé pendant cette période.

L’entreprise s’appuyait moins sur le PageRank et, suite au rachat de MetaWeb et de son Knowledge Graph propriétaire (appelé « Freebase » en 2014), Google a commencé à indexer les informations mondiales de différentes manières.

Barre d’outils PageRank vs. Classement

Google était au départ si fier de son algorithme qu’il était heureux de partager publiquement le résultat de son calcul avec tous ceux qui voulaient le voir.

La représentation la plus notable était une extension de barre d’outils pour des navigateurs comme Firefox, qui affichait un score compris entre 0 et 10 pour chaque page sur Internet.

En vérité, le PageRank a une gamme de scores beaucoup plus large, mais 0 à 10 a donné aux professionnels du référencement et aux consommateurs un moyen instantané d’évaluer l’importance de n’importe quelle page sur Internet.

La barre d’outils PageRank a rendu l’algorithme extrêmement visible, ce qui a également entraîné des complications. En particulier, cela signifiait qu’il était clair que les liens constituaient le moyen le plus simple de « jouer » avec Google.

Plus il y a de liens (ou, plus précisément, meilleur est le lien), plus une page pourrait être classée dans les SERP de Google pour n’importe quel mot clé ciblé.

Cela signifiait qu’un marché secondaire était formé, achetant et vendant des liens évalués sur le PageRank de l’URL où le lien était vendu.

Ce problème a été exacerbé lorsque Yahoo a lancé un outil gratuit appelé Yahoo Search Explorer, qui permettait à quiconque de commencer à trouver des liens vers n’importe quelle page donnée.

Plus tard, deux outils – Moz et Majestic – se sont appuyés sur l’option gratuite en créant leurs propres index sur Internet et en évaluant séparément les liens.

Comment le PageRank a révolutionné la recherche

D’autres moteurs de recherche s’appuyaient fortement sur l’analyse du contenu de chaque page individuellement. Ces méthodes n’avaient pas grand-chose pour identifier la différence entre une page influente et une page simplement écrite avec un texte aléatoire (ou manipulateur).

Cela signifiait que les méthodes de récupération des autres moteurs de recherche étaient extrêmement faciles à manipuler pour les professionnels du référencement.

L’algorithme PageRank de Google était alors révolutionnaire.

En combinaison avec un concept relativement simple de « nGrams » pour aider à établir la pertinence, Google a trouvé une formule gagnante.

Il a rapidement dépassé les principaux opérateurs historiques de l’époque, tels qu’AltaVista et Inktomi (qui propulsaient, entre autres, MSN).

En opérant au niveau de la page, Google a également trouvé une solution beaucoup plus évolutive que l’approche basée sur les « répertoires » adoptée par Yahoo et plus tard par DMOZ – bien que DMOZ (également appelé Open Directory Project) ait été en mesure de fournir initialement à Google un outil open source. répertoire qui lui est propre.

Comment fonctionne le PageRank

La formule du PageRank se présente sous plusieurs formes mais peut être expliquée en quelques phrases.

Initialement, chaque page sur Internet reçoit un score PageRank estimé. Cela pourrait être n’importe quel nombre. Historiquement, le PageRank était présenté au public comme un score compris entre 0 et 10, mais en pratique, les estimations ne doivent pas nécessairement démarrer dans cette fourchette.

Le PageRank de cette page est ensuite divisé par le nombre de liens sortant de la page, ce qui donne une fraction plus petite.

Le PageRank est ensuite distribué aux pages liées – et la même chose est faite pour toutes les autres pages d’Internet.

Ensuite, pour la prochaine itération de l’algorithme, la nouvelle estimation du PageRank pour chaque page est la somme de toutes les fractions de pages qui renvoient à chaque page donnée.

La formule contient également un « facteur d’amortissement », décrit comme le risque qu’une personne naviguant sur le Web arrête complètement de surfer.

Avant le démarrage de chaque itération suivante de l’algorithme, le nouveau PageRank proposé est réduit du facteur d’amortissement.

Cette méthodologie est répétée jusqu’à ce que les scores du PageRank atteignent un équilibre établi. Les nombres résultants étaient ensuite généralement transposés dans une plage plus reconnaissable de 0 à 10 pour plus de commodité.

Une façon de représenter cela mathématiquement est la suivante :

Formule de classement du PageRank

Où:

  • PR = PageRank dans la prochaine itération de l’algorithme.
  • d = facteur d’amortissement.
  • j = le numéro de page sur Internet (si chaque page avait un numéro unique).
  • n = nombre total de pages sur Internet.
  • i = l’itération de l’algorithme (initialement définie sur 0).

La formule peut également être exprimée sous forme matricielle.

Problèmes et itérations de la formule

La formule présente certains défis.

Si une page ne renvoie à aucune autre page, la formule n’atteindra pas un équilibre.

Dans ce cas, le PageRank serait donc réparti sur chaque page d’Internet. De cette façon, même une page sans liens entrants pourrait être quelques PageRank – mais il ne s’accumulerait pas suffisamment pour être significatif.

Un autre défi moins documenté est que les pages plus récentes, bien que potentiellement plus plus important que les pages plus anciennes, aura un PageRank inférieur. Cela signifie qu’au fil du temps, les anciens contenus peuvent avoir un PageRank disproportionné.

La durée de mise en ligne d’une page n’est pas prise en compte dans l’algorithme.

Comment le PageRank circule entre les pages

Si une page commence avec une valeur de 5 et comporte 10 liens sortants, alors chaque page vers laquelle elle renvoie reçoit un PageRank de 0,5 (moins le facteur d’amortissement).

De cette façon, le PageRank circule sur Internet entre les itérations.

Lorsque de nouvelles pages arrivent sur Internet, elles démarrent avec seulement une infime quantité de PageRank. Mais à mesure que d’autres pages commencent à créer des liens vers ces pages, leur PageRank augmente avec le temps.

Le PageRank est-il toujours utilisé ?

Bien que l’accès public au PageRank ait été supprimé en 2016, on pense que le score est toujours disponible pour les ingénieurs de recherche de Google.

Une fuite des facteurs utilisés par Yandex a montré que le PageRank restait un facteur qu’il pouvait utiliser.

Les ingénieurs de Google ont suggéré que la forme originale du PageRank ait été remplacée par une nouvelle approximation dont le calcul nécessite moins de puissance de traitement. Bien que la formule soit moins importante dans la façon dont Google classe les pages, elle reste une constante pour chaque page Web.

Et quels que soient les autres algorithmes auxquels Google pourrait choisir de faire appel, le PageRank reste probablement encore aujourd’hui intégré dans de nombreux systèmes du géant de la recherche.

Dixon explique plus en détail le fonctionnement du PageRank dans cette vidéo :



Brevets et articles originaux pour une lecture plus approfondie :

Davantage de ressources: