Site de référence


Un site de référence est une adresse Internet ou un nom d'hôte par lesquels les visiteurs accèdent à un autre site Web. Le visiteur a cliqué sur un lien hypertexte sur le site de référence qui le mène au site où il se trouve. Le site de référence est ainsi la source du trafic s'effectuant sur la page actuelle. En visitant un site Web, le nom du site requis est transmis par le navigateur du visiteur, de même que l'origine de la référence par laquelle le visiteur y a accédé. Dans l'analyse Web, les sites de référence sont des données importantes pour associer le trafic aux différentes sources et pour découvrir la provenance d'un site Web visité. Outre « site de référence » ou simplement « référent », la désignation anglaise « referrer » est aussi fréquente.

Informations générales

En visitant tout site Web, il s'établit une communication entre le client et le serveur Ils transmettent diverses informations qui sont enregistrées dans les fichiers journaux (log files). On y trouve par exemple l'adresse IP, les termes de recherche et le logiciel ayant servi à visiter le site Web. Le site de référence sera aussi mentionné dans ces fichiers journaux si la consultation s'est effectuée sur un autre site. Si l'utilisateur d'un site A clique sur un lien menant à un site B, le serveur Web de B consignera l'adresse Internet de A dans ses fichiers journaux. Seules certaines exceptions ne permettront pas le transfert du référent : par exemple lorsque le navigateur n'enregistre pas de données en raison des paramètres de sécurité ou lorsque la consultation s'effectue directement dans la ligne de l'URL du navigateur ou via un signet (en anglais « bookmark »).

Lorsque les sites de référence et le trafic doivent être analysés de façon générale, beaucoup de problèmes se posent pour ce qui est de l'analyse Web. D'une part, le site de référence n'est toujours pas communiqué et, d'autre part, le trafic peut provenir de sources ne pouvant être attribuées à aucun utilisateur humain (spam, robots et services payants). En outre, il est habituel que les référents soient nombreux et il n'est pas toujours évident de déterminer parmi ceux-ci qui a déclenché un achat ou une conversion. Le premier référent est généralement considéré comme le déclencheur, étant celui qui a attiré l'attention du visiteur sur un autre site. C'est pour cela que les logiciels d'analyse ont pour but de saisir les sites de référence corrects et de permettre une évaluation par les webmasters et exploitants de sites. Le cas échéant, il est possible d'ajuster l'élaboration du rapport des logiciels pour pouvoir distinguer les sources de trafic.

Mode de fonctionnement

En général, les outils d'analyse Web attribuent une conversion au site Web ayant été consulté en dernier lieu. Si l'utilisateur finalise un achat dans une boutique en ligne, le serveur Web de la boutique reçoit le référent qui renvoie en dernière position à la boutique en ligne. Le comportement de navigation et d'achat des cyberacheteurs n'est cependant pas toujours linéaire et ils visitent des boutiques plusieurs fois avant de passer une commande. Le serveur de la boutique peut alors obtenir, sous les circonstances susmentionnées, soit de fausses données, soit pas de données du tout. Les outils d'analyse Web remédient à ce problème lorsqu'ils incluent, par exemple, les consultations multiples dans les statistiques et lorsque certains sites de référence peuvent être marqués comme tels ou exclus. Les outils comme Google Analytics peuvent distinguer de manière assez fiable le trafic naturel des spams, robots et services payants si des paramètres appropriés ont été installés (Gestion > Paramètres d'affichage des données > Filtrage de robots). Si les rapports sont trop influencés par le trafic de référence, de diverses approches sont possibles pour les corriger.

  • Liste d'exclusion de références : au niveau de la propriété, certains noms de domaines peuvent être supprimés des accès de référents avec la liste d'exclusion de références. Pour cela, il faudra tout d'abord identifier ceux-ci. Les sessions considérées comme trafic de référence par Google Analytics (GA) sons représentées sous Acquisition > Tous les accès > Références. Ces sources sont souvent reconnaissables aux taux de rebond de 100 %. Toutefois, il est recommandé de vérifier manuellement toutes les références après coup afin de ne pas exclure de trafic bien réel. Dès que les références responsables de ce genre de trafic ont été identifiées, il est alors possible de les séparer des données de Google Analytics par la liste d'exclusion de références sous Gestion > Informations de suivi > Liste d'exclusion de références. En terme de résultat, GA traite tous les sites de référence de sorte qu'ils ne déclenchent pas de nouvelles sessions et qu'aucune des sessions existantes ne soit interrompue.
  • Créer un filtre : à l'aide d'un filtre personnalisé, il est également possible d'exclure des références. Lors de la création, il faudrait sélectionner le type de filtre source de la campagne afin d'enregistrer par la suite les domaines qui représentent le trafic de référence. Il est tout aussi possible d'utiliser des expressions régulières pour sélectionner par le filtre texte toutes les références connues et non désirées. À cet effet, tous les sites de références non désirés seraient également identifiés afin de les ajouter ensuite à GA via RegEx. Des expressions régulières peuvent être notées dans le champ « Motif de filtre ». La syntaxe :
paypal\.com|pagespam\.com|.*sousdomainespam\.com

La pipe (|) sert à distinguer les domaines et la barre oblique empêche que les points soient définis comme des expressions régulières. À la fin de l'expression régulière, plus aucune pipe ne doit être utilisée, sinon toutes les sources de références seront exclues.

  • Adapter le htaccess : à l'aide du fichier htaccess, il est possible d'exclure des adresses IP et des domaines IP entiers. Le htaccess est situé dans le répertoire racine du serveur Web et peut être édité avec un éditeur de texte. Il est recommandé d'effectuer une copie de sauvegarde au cas où des modifications entraineraient une attitude non désirée du serveur. La syntaxe :
order allow,deny allow from all deny from 84.133.115.37

Chaque ajout d'une adresse IP ou d'un nom d'hôte (aussi possible) s'effectue alors en bas avec la commande deny from. Le serveur bloque les adresses IP et les noms d'hôte correspondants et le logiciel d'analyse ne peut plus saisir ces références.

Il y a, de plus, d'autres possibilités qui ne peuvent être mentionnées que brièvement ici : l'exclusion par PHP, NGINX ainsi que le contrôle des visiteurs dans Google Tag Manager et en fin de compte les groupements de canaux dans Google Analytics. Chaque approche comporte des avantages et inconvénients et devrait être adaptée aux exigences du site Web (p. ex. boutique en ligne, cybercommerce ou autres types de site) et à leur outil d'analyse Web voire aux paramètres du serveur.

Signification pour l'analyse Web

Le nettoyage des rapports dans Google Analytics est recommandé par de nombreux experts mais n'est utile que dans certains cas. Il importe notamment dans le e-commerce de pouvoir saisir les sites de référence initiaux et d'exclure des références non désirées comme les spams ou robots. La raison en est que les références peuvent avoir un impact sur la représentation des fréquentations dans les rapports. Le trafic de référence est souvent responsable de certaines fréquentations lorsqu'il n'est pas exclu. Les représentations et l'attribution aux sources de provenance de ce trafic sont déplacées en conséquence. Les sites Web devant générer des valeurs monétaires ont donc besoin que ces valeurs soient correctement attribuées. Dans le cas contraire, les rapports seront faux et cela risquerait de conduire à des décisions erronées.

Une autre raison de l'exclusion de références peut aussi résider dans le fait que les méthodes semblables aux spams sont employées pour diriger les webmasters vers des sites qui utilisent les référents comme tactique de marketing. Certes, cette méthode de black hat ne peut être évitée mais les répercussions sur le site Web lui-même et sur les rapports peuvent être maitrisées.

Liens web