Deep web


Le deep web ou web "caché" fait référence à la partie de la toile qui ne peut généralement pas être trouvée via un moteur de recherche normal. Le deep web se compose principalement de bases de données et de sites web spécialisés qui ne sont générés que dynamiquement par des requêtes provenant de bases de données spécifiques. La taille du deep web n'est pas clairement déterminée, mais elle est beaucoup plus grande que la partie visible pour les moteurs de recherche, connue sous le nom de toile visible ou le web de surface.

Fonctions[modifier]

Il est difficile d'obtenir des données précises sur le deep web, mais l'étude (Bergmann 2001) réalisée par BrightPlanet[1] permet d’énoncer les propriétés suivantes :

  • Le deep web est environ 400 à 500 fois plus grand que le web visible.
  • Il existe probablement plus de 200 000 de sites web "deep".
  • Les pages web du deep web recensent en moyenne 50% de visites en plus par mois. Leur maillage interne est plus performant que celui des sites web de surface.

L'Université de Californie Berkeley a par ailleurs publié les valeurs suivantes en 2003 sur la portée d'Internet :

  • Surface web : 167 téraoctets
  • Deep Web : 91 850 téraoctets

Types de deep web[modifier]

Selon Sherman & Price (2001), on peut distinguer cinq types de web:

Web opaque Le web opaque désigne des sites web qui pourraient être indexés mais qui ne le sont pas en raison de l'efficacité technique ou de la rentabilité. Étant donné que les moteurs de recherche ne tiennent pas compte de tous les niveaux de répertoires et de toutes les sous-pages d'un site web, les documents pertinents peuvent ne pas apparaître dans des niveaux hiérarchiques inférieurs. Particulièrement affectés sont les sites web sans hyperliens ou système de navigation, ainsi que les sites web non liés.

Site privé Un site dit privé comprend des sites web qui pourraient être indexés mais qui ne le sont pas en raison des restrictions d'accès par le webmaster. Ce peut être des sites web internes, des données protégées par mot de passe ou un accès à des adresses IP spécifiques.

Site exclusif Un site web exclusif se réfère à des sites qui sont accessibles après l’obtention de la confirmation des conditions d'utilisation ou par la saisie d’un mot de passe : ils ne peuvent donc pas être indexés. Ces sites ne sont généralement disponibles qu'après identification.

Web invisible Le web invisible comprend des sites non indexés pour des raisons stratégiques ou commerciales. Du point de vue technique, l'indexation pourrait se faire sans problème.

"Truly invisible web" (web vraiment invisible) Ces sites web ne sont pas indexés pour des raisons techniques. Ce peut être des documents qui ne peuvent pas être affichés directement dans un navigateur ou des formats de fichiers qui ne peuvent être détectés en raison de leur complexité (principalement des formats graphiques) ou de formats non standard (par exemple, Flash).

Conclusion[modifier]

Le deep web contient beaucoup plus de données supplémentaires que le web de surface. Une intégration de ces résultats peut être bénéfique pour les utilisateurs, car des résultats potentiellement applicables peuvent être obtenus. Cependant, une mise en œuvre efficace d'un tel moteur de recherche qui prenne en charge à la fois le web de surface et le deep web est difficile. De plus, une sélection des sources appropriées pour une recherche individuelle peut être problématique. En plus des données scientifiques et juridiques, on trouve cependant de nombreux sites opaques sur la toile. Sans parler d'un énorme marché noir, il existe également de nombreux sites web de cybercriminels, d'extrémistes politiques (néo-nazis, révolutionnaires), etc. Par conséquent, le deep web devrait être utilisé avec précaution malgré la grande quantité de documents et de données utiles qui s’y trouvent.

Importance pour le référencement[modifier]

Les spécialistes de l'optimisation du référencement s'efforcent d'obtenir des résultats de recherche favorables pour les utilisateurs. Par conséquent, les sites web bien liés et contextuellement pertinents devraient atteindre un classement correspondant dans l'index de Google. La procédure exacte pour l'exploration et le classement du deep web est encore inconnue, cependant, les spécialistes du référencement développent des stratégies qui visent à rendre les documents du deep web accessibles aux utilisateurs du monde entier.

Référence[modifier]

  1. The journal of electronic publishing

Liens web[modifier]