Caractères spéciaux HTML

Les caractères spéciaux HTML font partie d’un set de caractères. Il s'agit d’un codage qui dépasse les caractères disponibles sur le clavier. Ils incluent des lettres grecques, des symboles mathématiques, des flèches, des monnaies et des dingbats, ainsi que des graphiques, crochets et signes de copyright ou de marque déposée. Les caractères spéciaux HTML sont également appelés caractères masqués ou entités HTML.

Informations générales

Le langage HTML, en tant que langage de balisage fondé sur du texte, est soumis à différentes règles et définitions qui permettent d’afficher les documents HTML dans les navigateurs. L’une des règles est notamment la saisie obligatoire du jeu de caractères. Il s’agit des caractères disponibles dans le langage de balisage. Un document est encodé et créé sur la base d’un ensemble de caractères formant un code.

Toutefois, comme les documents HTLM sont édités à l’aide de claviers classiques, il arrive parfois que des combinaisons de caractères présents sur le clavier soient utilisées pour noter des symboles spéciaux. Les caractères spéciaux HTML doivent donc être considérés comme des définitions de ces combinaisons. Il s’agit de références qui font le lien entre le jeu de caractères et le webmaster souhaitant intégrer certains caractères précis, afin d’assurer la bonne présentation des caractères spéciaux. L’une des méthodes pour leur traduction est, par exemple, le mode de codage URL.

Mode de fonctionnement des caractères spéciaux HTML

Le set de caractères peut être saisi avec des notations hexadécimale, décimale et d‘entités HTML (seulement à partir de HTML 5). Si des caractères spéciaux sont inscrits dans une de ces notations, le client – c’est-à-dire le navigateur – établit un caractère spécial correspondant pour lire et charger la police depuis le jeu de caractères.

La saisie du jeu de caractères a lieu au niveau des métadonnées du document. Celles-ci sont ensuite transmises au client par le serveur dès le premier byte.

à partir de HTML 4 :

<meta http-equiv="content-type" content="text/html; charset=utf-8" />

à partir de HTML 5 :

<meta charset="utf-8" />

Désormais, tous les caractères du set de caractères (en anglais : Characterset ; abbréviation : Charset) peuvent utiliser UTF-8 et le navigateur encode ensuite le document conformément à ce jeu de caractères.

Exemples de caractères spéciaux HTML

Si un webmaster souhaite à présent utiliser des caractères spéciaux particuliers, il peut avoir recours à une liste de références. Celle-ci contient des signes notés chacun avec trois variantes. La liste la plus simple et la plus moderne est la notation mnémotechnique des entités HTML, comme par exemple © pour Copyright.

© : le signe copyright peut être noté avec les caractères suivants (sans espace) :
- & # x a 9 ;
- & # 1 6 9 ;
- & c o p y ;
® : le signe d’une marque déposée peut être noté avec (sans espace) :
- & # x a d ;
- & # 1 7 4 ;
- & r e g ;
→ : une flèche vers la droite avec (sans espace) :
- & # x 2 1 9 2 ;
- & # 8 5 9 4 ;
- & r a r r ;

Importance pour l’optimisation du référencement

Les caractères spéciaux en HTML ont toujours eu des conséquences sur l’optimisation pour les moteurs de recherche. D’une part, de nombreux navigateurs ne pouvaient pas interpréter ces caractères et les utilisateurs ne pouvaient donc pas les lire. Cela a entraîné une mauvaise utilisabilité, qui a ensuite eu un effet important sur le SEO, puisqu’elle poussait les utilisateurs à quitter la page. D’autre part, les moteurs de recherche avaient parfois des difficultés à traiter les caractères spéciaux, de telle sorte que les robots d’indexation ne parvenaient pas à lire le contenu et à indexer les pages.

Avec l’arrivée de HTML 4 suivi de HTML 5, tout cela a changé. Même si certains navigateurs affichent encore de mauvais caractères dans certains cas, les robots d’indexation des moteurs de recherche lisent le code correctement et l’affichent dans les SERP. Google convertit toutes les pages en UTF-8 avant que celles-ci ne soient lues depuis les bases de données d’indexation des serveurs, puis affichées sous forme de listes pour l’utilisateur.

De nombreux caractères spéciaux sont utilisés de nos jours pour attirer les utilisateurs sur les sites web et visent aussi à augmenter le taux de clics. Cela vaut à la fois pour le contenu des fichiers HTML que pour la meta description et les balises de titre.

L’utilisation de caractères spéciaux HTML peut également permettre de clarifier certaines connotations de chaînes de caractères. Ainsi, les caractères spéciaux sont utilisés pour marquer les numéros de téléphone d’un signe ou symboliser certaines informations. Grâce aux caractères spéciaux, les chaînes de caractères gagnent en relief, ce qui donne une indication sur la signification de la chaîne de caractères. En plus des rich snippets et des données structurées, cela représente un pas en avant, même petit, pour le web sémantique. L’une des conséquences d’une utilisation excessive des caractères spéciaux est en revanche l’augmentation du temps de chargement d‘un site web^[1].

Référence

↑ Optimisation Page Speed : Comment améliorer le temps de chargement de mon site web ?, Ryte Magazine, publié le 18.04.2017

Liens web

Internationalization, webmasters.googleblog.com, ouvert le 10.10.2016
Référencement : les caractères spéciaux sous haute surveillance, journaldunet.com, ouvert le 10.10.2016
Les caractères spéciaux et les majuscules dans l'URL : bon ou mauvais pour le référencement ?, 10.10.2016

[1] Optimisation Page Speed : Comment améliorer le temps de chargement de mon site web ?, Ryte Magazine, publié le 18.04.2017

[1]