Algorithme de Shingle


Cet algorithme peut être utilisé pour reconnaître l’unicité du texte ou autre contenu. Un passage de texte peut être comparé avec un autre et vérifié du point de vue du duplicate content.

L’algorithme

Étape 1 : normaliser le texte

La section du texte doit être brute. Pour les sites web, le contenu se trouve dans le code HTML. Autrement dit, pour appliquer l’algorithme de manière significative au texte, tous les codes et formats doivent être enlevés. De plus, il est possible de supprimer les mots explétifs qui rallongent artificiellement le texte, comme par exemple "toutefois", "ainsi", "donc".

Étape 2 : diviser le texte en sous-parties

Les sous-parties sont des phrases du texte qui se composent d’une longueur fixe de mots. Voici un exemple avec une longueur 3 et la phrase "Ce n’est pas un texte créatif, mais c’est suffisant".

Shingle 1 : Ce n’est pas

Shingle 2 : n’est pas un

Shingle 3 : pas un texte

Shingle 4 : un texte créatif

Si la longueur est trop grande, les doublons ne sont pas vus. En revanche, la valeur est trop petite, le texte est rapidement évalué en tant que contenu dupliqué.

Étape 3 : comparer des sous-parties de différents textes

Pour déterminer si deux textes se ressemblent, un simple calcul est suffisant. Il détermine la valeur moyenne de chevauchement des sous-parties des deux textes ainsi que la quantité combinée des sous-parties de chaque texte. Le premier résultat est ensuite divisé par le second. Le pourcentage se voit donc calculé par la division du nombre de sous-parties correspondantes par le nombre total de sous-parties.

Si deux textes exactement identiques sont comparés, le résultat sera de 1 et donc une correspondance à 100%. Si aucune sous-partie unique est identique, le calculateur affichera 0, c’est-à-dire un résultat de 0%.

Importance pour le référencement

L’unicité du texte est un critère selon lequel le moteur de recherche évalue les sites web. Il est donc plausible que Google utilise l’algorithme de Shingle. Un algorithme plus simple pour reconnaître le contenu dupliqué est la fonction PHP "PHP similar text ()", qui s’applique à calculer la similitude de deux chaînes.

Lien web