Analyse de régression
L’analyse de régression est une méthode statistique de modélisation des relations entre différentes variables (dépendantes et indépendantes). Elle est utilisée pour décrire et analyser les relations entre les données. L'analyse de régression permet de réaliser des prédictions, les relations entre les données étant utilisées comme une base pour la prévision et la conception d'un modèle de prédiction. Les analyses de régression et de corrélation sont considérées comme un volet de méthodes analytiques multivariables et sont utilisées dans des domaines très différents, y compris les sciences naturelles, les statistiques, la finance et aujourd’hui aussi le marketing digital, afin d’analyser et de prédire partiellement les coûts et la rotation des produits, des campagnes, des chaînes et des médias publicitaires.
Historique
La régression n’est pas un sujet nouveau. Des instruments de mathématiques associées ont déjà été utilisés pour déterminer les orbites planétaires, basé sur des données provenant d’observations astronomiques. La méthode des moindres carrés a été publiée pour la première fois par Carl Friedrich Gauss en 1809, après que Adrien-Marie Legendre et d’autres mathématiciens en aient créé les fondements théoriques. Cette méthode est considérée comme un précurseur de l’analyse de la régression. Les instruments développés se sont initialement vus utilisés dans les domaines de la biologie et de la géologie. Les procédures de régression continuent d'alimenter des recherches importantes, impliquant des scientifiques de domaines très différents.
Comment fonctionne une analyse de régression
Une régression est basée sur l’idée qu’une variable dépendante est déterminée par une ou plusieurs variables indépendantes. En supposant qu’il existe une relation de causalité entre les deux variables, la valeur de la variable indépendante affecte la valeur de la variable dépendante. Par exemple, si vous voulez savoir comment vos investissements publicitaires influent sur vos ventes, une analyse de régression serait utilisée pour examiner la relation entre les investissements et les ventes. Si cette relation est clairement représentée, elle peut servir de prévision. Les analyses de régression ont deux objectifs centraux. Elles sont censées :
- quantifier les relations et les décrire à l’aide des valeurs mesurées et de leur représentation graphique.
- fournir des prévisions et des prédictions.
Types d'analyses de régression
- Régression simple : seulement une variable explicative est utilisée pour expliquer la variable dépendante.
- Régression multiple : plusieurs variables explicatives sont liées à une variable dépendante.
- Régression linéaire : il existe une relation linéaire entre plusieurs variables explicatives et plusieurs variables dépendantes. Le concept comprend également des paramètres linéaires et une structure.
- Régression non-linéaire : s’il n’existe pas de relation linéaire entre les variables dépendantes et indépendantes, vous obtenez une régression non-linéaire. Ces modèles peuvent être très complexes, car les relations entre les variables ne peuvent pas être organisées et tracées en utilisant des méthodes mathématiques simples.
Étapes
- Préparation des données : afin d’étudier les développements et les tendances des variables, la situation des données doit être aussi complète et exacte que possible. Des calculs approximatifs et des vérifications de plausibilité sont effectués pour vérifier les données. Si des enregistrements sont manquants, des techniques de données manquantes peuvent être utilisées, ce qui est également appelé imputation dans le domaine des statistiques. Si les données et leurs relations doivent être affichées graphiquement, cela peut être pris en compte lors de la préparation. Certains modèles de régression nécessitent des formats de données très spéciaux, dans lesquels ils doivent d’abord être convertis. C’est le cas, par exemple, d’une régression linéaire, dans laquelle une relation linéaire entre deux variables est supposée.
- Adaptation du modèle : chaque modèle de régression fonctionne avec des corrections d’erreurs statistiques afin de pouvoir agir avec des possibles déviations. Les fonctions qui réduisent les déviations sont parfois déterminées par le modèle. Ainsi, une fonction linéaire est utilisée dans une régression linéaire pour pouvoir traiter les déviations. Des valeurs d’erreur et des approximations sont calculées et intégrées dans le modèle de régression.
- Validation du modèle utilisé : on examine ensuite si le modèle de régression décrit la relation entre les variables indépendantes et dépendantes et la qualité de cette description. Les statisticiens ont des procédures et des approches différentes pour vérifier la validité de l’analyse de régression utilisée. Par exemple, des noeuds de données particulièrement influents sont analysés, ce qui affecte le contexte des variables. Enfin, une fonction est établie, qui décrit cette relation.
- Prévision des valeurs : si le modèle décrit adéquatement la relation, il peut être utilisé à des fins de prédiction. Encore une fois, la précision joue un rôle plus que central. Toute inexactitude dans les prévisions est calculée ou estimée. Toute déclaration qui dépasse les ensemble de données réels s’appelle extrapolation.
Les prévisions dans les ensembles de données sont appelés interpolation. Cette dernière est moins problématique que l’extrapolation, même si les hypothèses émises doivent être vérifiées avec attention.
L'élément décisif pour qu'une analyse de régression fonctionne est la mesure dans laquelle le modèle décrit les données réelles et les relations possibles. Le choix du modèle et des variables explicatives est donc déterminant. Seules les corrélations significatives devraient être étudiées. Par conséquent, chaque analyse de régression comprend différentes approches pour augmenter la précision, minimiser les erreurs et exclure des valeurs statistiques anormales qui ne sont pas pertinentes pour l’objet étudié. Pour ces raisons, ces modèles sont souvent comparés à des chiffres clés tels que le coefficient de détermination ou plus généralement le critère d’information.
Importance pour le marketing digital
Les analyses de régression sont utilisées dans le marketing digital pour comprendre le customer journey en utilisant des données d’analyse web ou pour exploiter le marketing multicanal basé sur des données fiables. Dans la pratique, ces analyses sont complexes et nécessitent un savoir-faire et une expertise professionnelle. Cependant, les résultats peuvent, selon le modèle, être très clairs et tangibles. Par exemple, si on utilise un modèle d'attribution pour vérifier l'efficacité sur plusieurs canaux (comme les ventes directes, les bannières, les partenaires affiliés, les réseaux sociaux, les e-mails ou les recommandations), les analyses de régression peuvent clairement indiquer lesquels de ces canaux possèdent un bon équilibre entre investissements et ventes. Au niveau des entreprises, les résultats peuvent devenir extrêmement utiles et aider à considérablement augmenter le ROI des actifs numériques individuels.