Les documents PDF ont un très grand avantage sur tous les autres types de documents : ils ne changent pas d’apparence et restent exactement les mêmes quel que soit le périphérique employé.
Une fois que tu as créé ton fichier PDF, chaque élément (titre, image, texte) demeure au même endroit, indépendamment du format PDF utilisé. Cet article te fait part de conseils pratiques sur la façon dont tu pourrais au mieux utiliser les PDF pour ta stratégie SEO.
Pour des mots-clés très compétitifs, les PDF apparaissent rarement dans les dix premiers résultats de recherche. Cependant, Google ne fait techniquement aucune distinction entre une page HTML et un document PDF. Le moteur de recherche se concentre uniquement à présenter à l’internaute les meilleurs résultats de recherche.
Textes : Google peut indexer les PDF de n’importe quelle langue et de n’importe quel encodage de caractères, du moment que le document n’est pas crypté ou protégé par un mot de passe. Les textes qui sont intégrés comme des images sont partiellement traités et lus selon les algorithmes OCR. Sans avoir recours à des pratiques complexes, il est facile de savoir si Google est capable de lire le texte PDF. Un simple test suffit : il faut effectuer un copier-collé du texte du PDF. En principe, Google n’a pas de problème pour lire et comprendre le texte, et donc pour le reproduire.
Images : Les images intégrées à un fichier PDF ne sont pas adaptées à la recherche d’image classique de Google. Si tu veux que les utilisateurs te trouvent en utilisant les images du fichier PDF, il te faut alors utiliser une page HTML ce qu’il y a de plus classique.
Liens : Bien qu’ils soient semblables aux documents HTML, les PDF peuvent aussi contenir des liens qui peuvent enrichir le pouvoir du lien. Ce fait a d’ailleurs été confirmé par Gary Illyes :
Illustration 1 : les liens au sein de PDF sont vecteurs du pouvoir du lien
NB : Rappelle-toi que les visites sur des PDF ne sont pas enregistrées par les outils de tracking tels que Google Analytics. Ton PDF peut donc obtenir de nombreux visiteurs, mais ce trafic ne sera pas comptabilisé comme tel.
Afin d’identifier les potentiels et les faiblesses, il est recommandé d’opérer à une analyse du fichier journal : cela permet d’évaluer les visites sur des fichiers qui ne sont pas au format HTML. Les fichiers journaux sont aussi particulièrement adaptés à l’évaluation des activités du crawler qui se basent sur le User Agent.
Du point de vue des moteurs de recherche, les PDF sont un sujet à double-tranchant. D’un côté, ils peuvent être listés dans les résultats de recherche comme n’importe quel autre type de document. En revanche, ils n’offrent pas aux utilisateurs des options de navigations ou des éléments qui permettent l’interaction.
Il est donc essentiel de pouvoir définir le vrai rôle que peuvent jouer les PDF dans ta stratégie SEO. La question la plus importante qu’il faut se poser est la suivante : "Est-ce qu’un PDF peut satisfaire les attentes d’un visiteur généré par un moteur de recherche ?"
Si un PDF indexable n’est pas en capacité de fournir toutes les informations attendues par l’utilisateur, il est recommandé de ne pas laisser le fichier PDF être indexé par les moteurs de recherche.
La façon la plus simple d’exclure le PDF de l’indexation est d’utilisation un robot.txt dans l’en-tête HTTP. Ce peut être une balise noindex ou canonique. Alors que le noindex indique seulement au moteur au recherche de ne pas indexer le contenu, la balise canonique peut, quant à elle, être utilisée pour faire référence à la version HTML du PDF.
Cas d’utilisation : qu’est-ce qui est le mieux pour moi ?
En utilisant le noindex dans l’en-tête HTTP pour les PDF, tu peux perdre un précieux pouvoir du lien. De plus, uniquement les URL qui sont citées et reliées depuis le document PDF peuvent en profiter. L’utilisation d’une balise canonique est beaucoup plus pratique, en particulier pour les PDF qui ont déjà générés de nombreux backlinks. La balise canonique transmet l’intégralité de la puissance du lien vers la page de destination correspondante. Le fichier PDF n’apparaît pas dans l’index du moteur de recherche, en revanche la landing page sera affichée.
Illustration 2 : exemple d’une landing page remplaçant un PDF
À éviter :
Identifier les PDF qui sont indexables
Tu peux facilement et rapidement identifier les PDF indexables en utilisant l’outil ZOOM de OnPage.org. Dirige-toi simplement vers "Indexability" → "Qu’est-ce qui est indexable ?" et active le filtre "Indexable" (1), puis clique sur le type mime (2).
Illustration 3 : afficher uniquement les PDF indexables
Une fois que tu as activé les filtres, tous les PDF trouvés au cours du crawling seront listés dans le tableau ci-dessous.
Illustration 4 : liste de tous les PDF indexables
Tu peux en plus obtenir une liste de tous les PDF qui sont indexés par Google en utilisant les champs de recherche "file type:pdf" et "site:domain.tld".
Illustration 5 : liste de tous les PDF qui se trouvent déjà dans l'index de Google
Dans de certains cas, rendre des PDF disponibles à l’indexation peut représenter une valeur ajoutée pour tes utilisateurs. C’est particulièrement utile si les PDF contiennent certaines informations qui seraient importantes pour les utilisateurs et si ces derniers n’ont pas à interagir avec le site web.
Un bon exemple peut être une carte des transports publics d’une ville, comme un plan de métro. Tous les utilisateurs veulent juste obtenir une information rapidement, télécharger le PDF et le sauvegarder sur leur mobile, sans avoir à interagir avec le site web.
Illustration 6 : exemple d’un PDF qui est une parfaite landing page dans l’index du moteur de recherche.
Illustration 7 : plan du réseau de transports en commun de Munich sous format PDF
L’indexabilité du document est la condition prérequise la plus importante pour qu’un PDF puisse apparaître dans l’index du moteur de recherche.
Critères d’indexabilité :
Le document ne sera pas indexé si un de ces critères n’est pas respecté.
OnPage.org Zoom te permet d’identifier facilement les PDF qui ne sont pas indexables. Dirige-toi simplement vers "Indexabiliy" → "Qu’est-ce qui est indexable ?" et sélectionne "PDF". Cela te permet d’apercevoir, au sein du graphique, une liste de tous les PDF qui ne sont pas indexables, ainsi que les raisons respectives (ex : tous les PDF qui ne sont pas dotés d’une balise meta robots).
Illustration 8 : identifier les URL qui ne sont pas indexables
Astuce : les URL indexables devraient toujours contenir un lien vers la landing page correspondante. Cela permet aux utilisateurs de surfer sur le site web plus rapidement.
Comme ils sont similaires aux pages HTML, les PDF peuvent aussi être listés dans les résultats de recherche. Cependant, tous les documents PDF ne sont pas adaptés pour être des landing pages. Tu devrais donc réfléchir au rôle que les PDF doivent jouer dans ta stratégie SEO et trouver une façon d’en tirer le plus grand parti. Les PDF qui ne sont pas faits pour être des landing pages mais qui contiennent un grand pouvoir de liens entrants devraient être dotés d’un élément robots.txt dans l’en-tête HTTP qui renvoie vers la landing page correspondante. En ce qui concerne les PDF qui sont importants pour l’indexation, tu dois t’assurer que ces derniers remplissent tous les critères nécessaires à une indexation réussie.
Écrit le 03.02.2017 par Stephan Walcher.
Stephan Walcher est un professionnel du SEO évoluant dans le secteur du marketing digital depuis 2007. Curieux et fort de son expertise, il a développé une solide expérience professionnelle au sein d’agences web et entreprises reconnues, comme Catbird Seat, 1&1 Mail & Media GbmH et en tant que directeur du management de produit chez Ryte. Tout en continuant à étendre son savoir-faire et ses connaissances, Stephan a dernièrement rejoint l’équipe de One Advertising AG en tant que responsable du département SEO Travel.
Suivi, analyse et optimisation de vos actifs numériques grâce à notre technologie unique
S’inscrire gratuitement