Data crunching


Le data crunching est une méthode des sciences de l’information qui permet de préparer un traitement automatisé de grandes quantités de données et d’informations (Big Data). Le data crunching consiste à préparer et à modéliser un système ou une application : les données sont traitées, triées et structurées afin d'exécuter des algorithmes et des séquences au sein du programme. Le terme data crunching se réfère donc à des données qui ont déjà été importées et traitées dans un système. Le date munging et data wrangling sont des termes similaires, mais ils se réfèrent au traitement manuel ou semi-automatique des données, c’est pourquoi ils sont relativement différents du data crunching.

Informations générales sur le sujet[modifier]

Le but final du traitement de données est d’obtenir une vision plus approfondie de ce qui doit être transmis avec les données, notamment dans le domaine de la veille stratégique et concurrentielle, afin que des décisions éclairées puissent être prises. Les autres domaines dans lesquels peuvent s’appliquer des processus de data crunching sont la médecine, la physique, la chimie, la finance, la criminologie ou encore la web analytique. Selon le contexte, des langages et des outils de programmation peuvent être utilisés. Excel, Batch et Shell sont depuis longtemps utilisés, mais des langages tels que Java, Python ou Ruby sont de nos jours préférés.

Fonctionnement[modifier]

Le data crunching, toutefois, ne fait pas référence à une analyse exploratoire ou à une visualisation des données : cela est réalisé par des programmes spéciaux adaptés à leur domaine d’application. Le data crunching implique plutôt un traitement qui se veut exact, de sorte qu’un système peut faire quelque chose avec les enregistrements et le format des données. Ce processus, tout comme l’analyse des données, peut être répétitif quand le résultat comprend de nouvelles données ou des erreurs. Cela veut dire que les séquences du programme peuvent être répétées jusqu’à ce que le résultat souhaité soit atteint : un ensemble de données exact et précis qui peut être traité directement ou importé, sans qu’il ne contienne d’erreurs ou de bugs.

Importance pratique[modifier]

La plupart des tâches du crunching des données peuvent être simplifiées en trois étapes. Tout d’abord, les données brutes sont lues (1) afin de les convertir dans le format sélectionné au cours de l’étape suivante (2). Enfin, les données sont affichées au format correct afin qu’elles puissent être plus tard traitées ou analysées (3). Cette trichotomie présente l’avantage que chaque information (entrante ou sortante) peut également être utilisée dans d’autres contextes ou scénarios.

Quelques exemples d’application du data crunching :

  • Traitement ultérieur des données obtenues dans un code de programme
  • Conversion d’un format à l’autre, par exemple du texte brut à la sauvegarde de données XML.
  • Correction des erreurs dans les ensembles de données, qu’il s’agisse d’erreurs d’orthographe ou d’erreurs de programme.
  • Extraction de données brutes afin de préparer une évaluation ultérieure.

En règle générale, le data crunching permet d’économiser beaucoup de temps car les processus n’ont plus besoin d’être effectués manuellement. En particulier quand il s’agit de grands ensembles de données et de bases de données relatives, le data crunching peut être d’un grand avantage. Cependant, une infrastructure appropriée est nécessaire pour pouvoir assurer la puissance informatique de ces opérations. Un système comme Hadoop par exemple distribue la charge informatique sur plusieurs ressources et exécute les processus arithmétiques sur des clusters d’ordinateurs. Il utilise le principe de division du travail.

Importance pour le marketing en ligne[modifier]

Le data crunching peut résoudre des problèmes rencontrés dans les domaines du marketing en ligne, du web design et de la web analytique. Les grands online shops peuvent aussi s’appuyer sur ces méthodes efficaces. Par exemple, si 10 000 enregistrements provenant d’une base de données sont censés être automatiquement convertis en un format différent afin que les produits les plus importants de l’interface puissent être affichés, le data crunching est une méthode de prédilection. Le traitement de très grosses quantités de données est d’une importance centrale, surtout face au Big Data. Plus il y a des données qui doivent être traitées, plus le data crunching peut vous faire gagner du temps.

Liens web[modifier]