Indexation


Qu'est-ce que l'indexation ?

L'indexation désigne, de manière générale, une méthode de collecte d'informations. Dans le contexte Internet, l'indexation signifie la réception d'un document dans l'index d'un moteur de recherche. Les moteurs de recherche utilisent, à cet effet, des robots d’exploration ou crawlers qui parcourent le Web et livrent des documents à l'indexeur.

Contexte

De manière générale, l'indexation désigne une méthode de collecte d’informations (en anglais : Information Development), dans laquelle des documents sont collectés et triés sur la base de mots-clés. Se constitue ensuite un index semblable à une bibliothèque : les documents, en grande partie des contenus de textes, sont préparés pour une recherche d'un certain document ou mot-clé et muni de descripteurs.

Quand un utilisateur recherche, à l’aide d’un mot-clé, des documents ou ressources, des contenus aussi pertinents que possible s'afficheront. Dans une bibliothèque, les descripteurs peuvent être des données comme des auteurs, des titres ou aussi des numéros ISBN. En principe, le procédé est le même pour des recherches sur Internet. Spécifiquement, le terme indexation signifie donc la formation d'un index qui rassemble des documents Web sur la base de différents descripteurs (par ex. les mots-clés), les trie et les met à disposition pour des recherches ultérieures (information retrieval).

Indexation sur Internet

L'indexation de documents sur le Web est un processus fastidieux et complexe qui emploie différentes méthodes issues des sciences de l'information, de l'informatique et de la linguistique informatique. Comme termes importants ici, on a, outre l'information development (expliqué plus haut) et l’information retrieval (récupération d'informations), ainsi que le data mining : l'exploration de contenus de haute qualité à partir d'une grande quantité de données.

Au cours d'une recherche, de différents processus ayant un rapport avec l'indexation ont donc lieu et ce bien avant la saisie d'un mot-clé. Il faut parcourir et lire les documents du Web (cf. crawler, robot, bots). Ceux-ci sont rassemblés dans un index, triés et hiérarchisés avant de pouvoir s'afficher dans les SERP des moteurs de recherche dans un ordre précis. Les exploitants de moteur de recherche tels que Google, Yahoo ou Bing travaillent sans cesse à améliorer l'indexation des sites Web afin de fournir à l'utilisateur des contenus aussi pertinents que possible[1].

Google modifie l'index à des intervalles réguliers et a introduit, par le passé, l' index caffeine . Il a pour mission d'accélérer la réception des contenus Web dans l'index ; pour cela il doit constamment parcourir de façon synchrone certaines parties du réseau Internet mondial. En outre, les contenus Web tels que vidéos ou podcasts devraient être retrouvés plus facilement.

En pratique

Pour les opérateurs de sites et les webmasters, il se produit de diverses conséquences et possibilités en ce qui concerne l'indexation. Si un site Web doit être indexé et retrouvé dans l'index, il doit tout d'abord être accessible pour le crawler. S'il s'agit d'une nouvelle page Web, celle-ci peut être proposée au moteur de recherche pour l'indexation au moyen de l'inscription dans un moteur de recherche. La page Web doit être trouvable pour le crawler et lisible jusqu'à un certain degré.

Les balises meta qu'on peut noter dans la section d'en-tête d'une page Web permettent de réaliser cela. Ainsi, l'accès peut également être bloqué aux robots afin d'exclure, par exemple, une certaine page de l'index. Même les balises canoniques et autres tags dans le robots.txt peuvent être utilisés ici[2]. On peut s'enquérir de l'état de l'indexation dans Google Search Console. Sous l'onglet Google Index et l'État de l'indexation, les URL qui sont accessibles via l’index sont listées, y compris celles qui par exemple ont été bloquées par l'opérateur des pages.

Indexation et SEO

La signification de l'indexation pour le référencement est énormément importante. Les webmasters et opérateurs de pages peuvent contrôler ce processus et veiller à ce que les pages Web soient crawlées, indexées et enfin affichées dans les SERP. Toutefois, ils ne peuvent influencer cette position qu'à travers de différentes mesures on-page et off-page ainsi que par la mise à disposition de contenus de haute qualité.

En même temps, ils doivent rester au courant des nouveautés, car Google modifie assez régulièrement ses algorithmes pour exclure de l'index les sites Web contenant des spams ou faisant partie de fermes de contenu.

Références

  1. 7 conseils pour optimiser votre contenu Web : visez l’excellence, Ryte Magazine, publié le 08.05.2018
  2. Guide pratique : le canonical tag, Ryte Magazine, publié le 07.06.2017

Liens web