Analyse de régression


L’analyse de la régression est une méthode statistique pour la modélisation des relations entre différentes variables (dépendantes et indépendantes). Elle est utilisée pour décrire et analyser les relations entre les données. On peut faire des prédictions en utilisant des analyses de régression, par lesquelles les relations entre les données seront utilisées comme une base pour la prévision et la génération d’un modèle de prédiction. Les analyses de régression et de corrélation sont considérées comme un volet de méthodes analytiques multivariées et sont utilisées dans des domaines très différents, y compris les sciences, les statistiques, la finance et aujourd’hui aussi le marketing digital afin d’analyser et de prédire partiellement les coûts et la rotation des produits, des campagnes, des chaînes et des médias publicitaires.

Informations générales[modifier]

La régression n’est pas un sujet nouveau. Des instruments de mathématiques associées ont déjà été utilisés pour déterminer les orbites planétaires avec des données provenant d’observations astronomiques. La méthode des moindres carrés a été publiée pour la première fois par Carl Friedrich Gauss en 1809, après que Adrien-Marie Legendre et d’autres mathématiciens en aient créé les fondements théoriques. Cette méthode est considérée comme un précurseur de l’analyse de la régression. Les instruments ont été développés et utilisés pour la biologie et la géologie. Les procédures de régression continuent d’être un domaine de recherche impliquant de nombreux scientifiques différents.

Comment ça marche[modifier]

Une régression est basée sur l’idée qu’une variable dépendante est déterminée par une ou plusieurs variables indépendantes. En supposant qu’il existe une relation de causalité entre les deux variables, la valeur de la variable indépendante affecte la valeur de la variable dépendante. Par exemple, si vous voulez savoir comment vos investissements publicitaires influent sur les ventes, une analyse de régression serait utilisée pour examiner la relation entre les investissements et les ventes. Si cette relation est clairement représentée, elle peut servir de prévision. Les analyses de régression ont deux objectifs centraux. Elles sont censées :

  • quantifier les relations et les décrire à l’aide des valeurs mesurées et de leur représentation graphique.
  • fournir des prévisions et des prédictions.

Vue d’ensemble de plusieurs analyses de régression :

  • Régression simple : seulement une variable explicative est utilisée pour expliquer la variable dépendante.
  • Régression multiple : plusieurs variables explicatives sont liées à une variable dépendante.
  • Régression linéaire : il existe une relation linéaire entre plusieurs variables explicatives et plusieurs variables dépendantes. Le concept comprend également des paramètres linéaires et une structure.
  • Régression non-linéaire : s’il n’y a pas de relation linéaire entre les variables dépendantes et indépendantes, vous obtenez une régression non linéaire. Ces modèles peuvent être très complexes car les relations entre les variables ne peuvent pas être organisées et tracées en utilisant des méthodes mathématiques simples.

Bien que différentes méthodes de régression existe, la structure de ces méthodes reste souvent la même au niveau des étapes :

  • Préparation des données : afin d’étudier les développements et les tendances des variables, la situation des données doit être aussi complète et exacte que possible. Des calculs approximatifs et des vérifications de plausibilité sont effectués pour vérifier les données. Si des enregistrements sont manquants, des techniques de données manquantes peuvent être utilisées, ce qui est également appelé imputation dans les statistiques. Si les données et leurs relations doivent être affichées graphiquement, cela peut être pris en compte lors de la préparation. Certains modèles de régression nécessitent des formats de données très spéciaux, dans lesquels ils doivent d’abord être convertis. C’est le cas, par exemple, d’une régression linéaire où une relation linéaire entre deux variables est supposée.
  • Adaptation du modèle : chaque modèle de régression fonctionne avec des corrections d’erreurs statistiques afin de pouvoir agir avec des possibles déviations. Les fonctions qui réduisent les déviations sont parfois déterminées par le modèle. Ainsi, une fonction linéaire est utilisée dans une régression linéaire pour pouvoir traiter les déviations. Des valeurs d’erreur et des approximations sont calculées et intégrées dans le modèle de régression.
  • Validation du modèle utilisé : on examine maintenant si le modèle de régression décrit la relation entre les variables indépendantes et dépendantes et la qualité de cette description. Les statisticiens ont des procédures et des approches différentes pour vérifier la validité de l’analyse de régression utilisée. Par exemple, des noeuds de données particulièrement influents sont analysés, ce qui affecte le contexte des variables. Enfin, une fonction devrait décrire cette relation. Si la fonction correspond, elle doit être établie au moyen de la procédure de régression.
  • Prévision des valeurs : si le modèle décrit adéquatement la relation, il peut être utilisé à des fins de prédiction. Encore une fois, la précision joue un rôle central. Toute inexactitude dans les prévisions est calculée ou estimée. Toute déclaration qui dépasse les ensemble de données réels s’appelle extrapolation.

Les prévisions dans les ensembles de données sont appelés interpolation. Cette dernière est moins problématique que l’extrapolation. Les hypothèses faites dans ce cas doivent être vérifiées avec attention.

Ce qui est décisif pour le bénéfice d’une analyse de régression est la mesure dans laquelle le modèle décrit les données réelles et ses relations possibles. Un problème important est le choix d’un modèle et avec celui-ci, la sélection des variables explicatives. Seules les corrélations significatives devraient être étudiées. Par conséquent, chaque analyse de régression comprend différentes approches pour augmenter la précision, minimiser les erreurs et exclure des valeurs statistiques anormales qui ne sont pas pertinentes pour l’objet étudié. Pour ces raisons, ces modèles sont souvent comparés en fonction des chiffres clés tels que le coefficient de détermination ou plus généralement le critère d’information.

Importance pour le marketing en ligne[modifier]

Les analyses de régression sont utilisées dans le marketing en ligne par exemple pour comprendre le customer journey en utilisant des données d’analyse web ou pour prendre en charge le marketing multicanal avec des données fiables. Dans la pratique, ces analyses sont complexes et nécessitent un savoir faire et des compétences professionnelles. Mais les résultats peuvent, selon le modèle, être très clairs et tangibles. Par exemple, si la modélisation d’attribution est utilisée pour vérifier plusieurs canaux comme les ventes directes, les annonces graphiques, les partenaires affiliés, les réseaux sociaux, les emails ou les recommandations, les analyses de régression peuvent clairement indiquer lesquels de ces canaux possèdent un bon équilibre entre investissements et ventes. Au niveau des entreprises et avec des partenaires spécifiques qui peuvent réaliser de telles analyses, les résultats sont susceptibles d’être extrêmement utiles et pourraient considérablement augmenter le ROI des actifs numériques individuels.[1]

Référence[modifier]

  1. How To Use Regression Analysis To Estimate Incremental Revenue Opportunities, searchengineland.com, 22.02.2013

Liens web[modifier]