Modèle internaute aléatoire

Le modèle de l’internaute aléatoire fournit une base de calcul pour l’algorithme du PageRank. Le modèle veut représenter le comportement des internautes et propose une probabilité qu’un internaute aléatoire se rende sur une page web.

Comportement de l’internaute

Un internaute se déplace sur la toile de deux façon. Il peut saisir une URL ou utiliser un marque-page pour accéder directement à une page web. Ou alors il peut suivre une série de liens successifs jusqu’à accéder à une nouvelle page. Dans le modèle de l’internaute aléatoire, on suppose que le lien cliqué est sélectionné au hasard. Le contenu n’a pas d’importance. En outre, on suppose que cliquer sur un autre lien n’est pas une chaîne infinie, mais plutôt qu’un internaute lambda perdra peu à peu son intérêt à suivre ces liens et visitera à la place un tout nouveau site.

Possibilités

La probabilité avec laquelle un internaute se rend sur une page peut être déduite du PageRank. La probabilité avec laquelle il suivra un lien dépend par contre uniquement du nombre de liens existants. Ainsi, la probabilité qu’un internaute se rende sur une page correspond à la somme de toutes les probabilités avec lesquelles il a cliqué sur les liens entrants de cette page. En conséquence, les pages web qui sont souvent citées sont donc souvent consultées et possèdent un haut PageRank. Cette valeur est cependant réduite par le facteur “d”. La raison est qu’un internaute aléatoire ne suivra pas un lien de manière infinie, mais accèdera après un certain temps automatiquement à une autre page. En fonction de l’étendue de la probabilité que l’internaute qui suit des liens n’interrompt pas son action, "d" a une valeur située entre 1 et 0. Plus la valeur se rapproche de 1, plus il est probable que le lien sera suivi. La probabilité qu’un internaute se rende sur une nouvelle page au hasard sera calculée avec la constante 1-d.

Dans la réalité

En réalité, un utilisateur a un objectif et ne se déplace pas sur la toile de façon aléatoire en cliquant sur des liens. Il ne fera que cliquer sur un lien s’il pense se rapprocher de son objectif en fonction du contenu de la page demandée. Le contenu joue un rôle crucial. Le modèle de l’internaute aléatoire ne représente aujourd’hui plus la réalité. Quoiqu’il en soit, c’est un modèle qui peut toujours mieux décrire un internaute aléatoire et devrait donc être utilisé pour mesurer l’importance d’un site web.

Il y a quelques années, le PageRank jouait un rôle aussi important pour les internautes que pour le référencement. Il donnait une indication sur la légitimité ou la valeur d’un site web. Mais comme ce modèle se basait principalement sur la solidité des liens entrants et que le contenu de la landing page était ignoré, il n’est aujourd’hui plus approprié. Il était en effet possible qu’un site web au contenu maigre reçoive un PageRank de 6, simplement parce qu’un autre site avec un PageRank de 7 le pointait. C’est une explication plausible sur la raison pour laquelle Google n’actualise plus le PageRank et ne l’utilise plus comme indicateur de la qualité d’un site web. En fin de compte, le PageRank était plutôt destiné aux utilisateurs. Google travaille désormais avec son propre système de notation qui mesure la qualité des sites web.

Importance pour le référencement

Indirectement, le modèle de l’internaute aléatoire était important pour les mesures liées à l’optimisation du référencement car il aidait à déterminer le PageRank d’un site web. Le PageRank peut encore aujourd’hui donner une indication sur la force d’un backlink. Aujourd’hui, toutefois, de nombreux critères différents sont utilisés pour déterminer la qualité d’un lien retour et le modèle de l’internaute aléatoire n’est plus vraiment pertinent pour l’optimisation du référencement. Il donne plutôt un aperçu des premiers jours d’Internet, quand les moteurs de recherche tels que Google essayaient de trouver un moyen de déterminer la qualité d’un site web.

Lien web

PageRank and The Random Surfer Model, math.cmu.edu