TF-IDF

La formule TF-IDF permet de déterminer dans quelles proportions certains mots d’un document texte, d'un corps de document ou d’un site web peuvent être évalués par rapport au reste du texte. En plus de déterminer la densité des mots-clés, cette formule peut être utilisée pour l’optimisation on-page afin d’augmenter la pertinence d’un site web et son référencement au sein des moteurs de recherche.

TF

TF est l’abréviation de l’anglais term frenquency (fréquence du terme). Il détermine la fréquence relative d’un mot ou d’une combinaison de mots dans un document. Cette fréquence du terme sera comparée à la survenance de tous les autres mots restants du texte, du document ou du site web analysé. Cette formule utilise un logarithme qui se lit comme suit :

Formelbild1b.png

Le logarithme atteste qu’une augmentation visible du mot-clé dans le texte ne mène pas à une amélioration de sa valeur dans le calcul. Alors que la densité du mot-clé calcule principalement la distribution en pourcentage d’un seul mot dans le texte (en relation avec le nombre total de mots restant), le term frenquency factorise également en proportion de tous les mots utilisés dans le texte.

IDF

L’IDF calcule le Inverse Document Frequency (la fréquence inverse du document) et complète l’analyse de l’évaluation du mot. Il agit en tant que correctif du TF. L’IDF inclut dans le calcul la fréquence des documents pour un mot précis, autrement dit l’IDF compare le chiffre correspondant à tous les documents connus avec le nombre de textes contenant le mot en question. Le logarithme suivant condense les résultats :

Formel1aaa.png

En conséquence, l’IDF détermine la pertinence d’un texte en considérant un mot-clé précis.

Les formules multipliées montrent l’évaluation relative du mot d’un texte comparé à tous les documents potentiels qui contiennent le même mot-clé. Afin d’obtenir des résultats utiles, la formule a besoin d’être appliquée à tout mot-clé significatif dans un document texte.

Plus la base de données utilisera et travaillera avec le calcul TF-IDF, plus les résultats seront précis.

Usage pour le référencement

En termes d’optimisation du référencement, le TF-IDF est utile aux utilisateurs d’outils traditionnels, qui créent des textes le plus unique possible pour un site web ou pour une subpage, l’objectif étant d’être le mieux classé dans les SERP pour la recherche de certains mots. Pendant longtemps, la densité des mots-clés était utilisée comme référence pour les textes optimisés. Aujourd'hui, la formule TF-IDF représente une manière beaucoup plus précise d'optimiser ses contenus.

Comme les moteurs de recherche essaient souvent d’interpréter la relation sémantique entre certains mots, il peut être avantageux d’améliorer le contenu de son site web au sein même de sa sémantique. Cela est appelé le Latent Semantic Optimization (analyse sémantique latente).

L’outil TF-IDF peut aussi servir dans la détermination des mots clés qui devraient être idéalement utilisés dans le contenu d’un site web. Avec l’aide d’un outil TF-IDF, les textes peuvent non seulement être optimisés par rapport à un mot-clé précis, mais l’outil met aussi en évidence les mots qui pourraient être inclus directement lors de la création des textes afin de les rendre le plus unique possible.

Limites du TF-IDF

Si les textes ont été optimisés avec les moyens de l’analyse term frequency, les utilisateurs doivent être conscients que tous les éléments du site web ont été inclus dans l’analyse. Cela signifie aussi bien les titres des catégories que les descriptions des produits. Ce type d’optimisation on-page s’adresse aux pages possédant une certaine quantité de contenus. La formule TF-IDF sera donc considérée comme une possibilité sous-optimale pour les boutiques en ligne, qui présentent chaque produit individuellement avec peu de textes. Cette formule est effectivement plus globale et calcule la valeur de chaque mot au sein du document analysé.

En outre, la formule TF-IDF ne prend pas en considération que la recherche de mots peut être cumulative, que des règles de recherche du radical peuvent s’appliquer ou que les textes peuvent de plus en plus faire appel à des synonymes.

Après tout, le TF-IDF n'est pas une "arme secrète" pour optimiser le contenu, mais c'est plutôt un moyen pour créer un contenu aussi unique que possible. Finalement, l'optimisation des textes n'est qu'un aspect possible de l'optimisation on-page. Même le meilleur texte écrit selon les standards de la formule TF-IDF ne provoquera pas de meilleurs classements si la page se compose de mauvais backlinks ou n'est pas optimisée pour l'utilisation mobile.

En outre, les agences de rédaction, les auteurs ou les webmasters ne devraient pas uniquement s'orienter à la courbe du TF-IDF. Les résultats de cet outil ne sont "que" des calculs basés sur des logarithmes. D'autres aspects tels que la tonalités, la vivacité du texte, la structure ou le flot de lecture ne joue aucun rôle dans la pondération des termes. Pour qu'un texte soit vraiment bon, cependant, ces aspects ne doivent pas être négligés lors de l'écriture.

Contexte

Toutefois, avec la formule TF-IDF, aucune nouvelle règle n'a été créée pour l'optimisation des textes web. On dira plutôt que la pondération des termes a été redécouverte, alors qu'elle avait déjà été systématisée et développée en 1957 par le chercher en informatique Hans Peter Luhn. Avant que cet aspect ne soit redécouvert dans le cadre de l'optimisation des moteurs de recherche, il a également été utilisé dans les domaines de la linguistique et de la linguistique informatique dans le cadre de l'évaluation des matériels textes.

Liens web

Catégorie