L’analyse de régression logistique binaire permet d’estimer la relation entre une ou plusieurs variables indépendantes (ou explicatives) et la variable dépendante (ou de résultat) avec deux catégories. Le coefficient de régression (ß) d’une régression logistique est l’augmentation estimée de la cote logarithmique du résultat par unité d’augmentation de la valeur de la variable prédictive.
De façon plus formelle, soit Y la variable binaire de résultat indiquant non/oui avec 0/1, et p la probabilité que Y soit 1, de sorte que p = prob (Y=1). Soit X1,… Xk est un ensemble de variables explicatives. Alors, la régression logistique de Y sur X1,… Xk estime les valeurs des paramètres pour ß0, ß1,..., ßk par la méthode du maximum de vraisemblance de l’équation suivante :
De plus, on obtient la fonction exponentielle du coefficient de régression (exp (ß)), qui est le rapport de cotes (RC) associé à une augmentation d’une unité dans la variable explicative. Ensuite, en termes de probabilités, l’équation ci-dessus se traduit comme suit :
La transformation des cotes logarithmiques (ß) en rapports de cotes (exp (ß) ; RC) permet de mieux interpréter les données en termes de probabilité. Le rapport de cotes (RC) est une mesure de la probabilité relative d’un résultat particulier dans deux groupes. Le rapport de cotes pour l’observation du résultat en cas de présence d’un antécédent est :
Où p11/p12 représente la « probabilité » d’observer le résultat lorsque l’antécédent est présent, et p21/p22 représente la « probabilité » d’observer le résultat lorsque l’antécédent est absent. Ainsi, un rapport de cotes indique dans quelle mesure une variable explicative est associée à une variable de résultat catégorique comportant deux catégories (p. ex. oui/non) ou plus. Un rapport de cotes inférieur à 1 dénote une association négative ; un rapport de cotes supérieur à 1 indique une association positive ; et un rapport de cotes égal à 1 signifie qu’il n’y a pas d’association. Par exemple, si on analyse l’association entre le fait d’être une enseignante et le fait d’avoir fait de l’enseignement son premier choix de carrière, les rapports de cotes suivants seraient interprétés comme suit :
-
0.2 : Les enseignantes sont cinq fois moins susceptibles que les enseignants d’avoir fait de l’enseignement leur premier choix de carrière.
-
0.5 : Les enseignantes sont deux fois moins susceptibles que les enseignants d’avoir fait de l’enseignement leur premier choix de carrière.
-
0.9 : Les enseignantes sont 10 % moins susceptibles que les enseignants d’avoir fait de l’enseignement leur premier choix de carrière.
-
1 : Les enseignantes et enseignants sont tout autant susceptibles d’avoir fait de l’enseignement leur premier choix de carrière.
-
1.1 : Les enseignantes sont 10 % plus susceptibles d’avoir fait de l’enseignement leur premier choix de carrière que les enseignants.
-
2 : Les enseignantes sont deux fois plus susceptibles que les enseignants d’avoir fait de l’enseignement leur premier choix de carrière.
-
5 : Les enseignantes sont cinq fois plus susceptibles que les enseignants d’avoir fait de l’enseignement leur premier choix de carrière.
Les rapports de cotes en gras indiquent que le ratio relatif risque/cote est significativement différent d’un point de vue statistique de 1 à un niveau de confiance de 95 %. Pour calculer la signification statistique autour de la valeur de 1 (hypothèse nulle), il est présumé que la statistique du rapport risque/ratio relatif suit une distribution log-normale, plutôt qu’une distribution normale, selon l’hypothèse nulle.