Courbe ROC dans Excel, tutoriel
Ce tutoriel explique comment calculer et interpréter une courbe ROC dans Excel en utilisant XLSTAT.
Courbe ROC
L'analyse de sensibilité et de spécificité et les courbes ROC ont d’abord été développées pendant la seconde guerre mondiale pour la mise au point de moyens efficaces de détection des avions japonais. Elles ont ensuite été appliquées de manière plus générale en détection du signal, puis en médecine, où elles sont aujourd’hui très utilisées.
La problématique est la suivante : on étudie un phénomène, souvent de nature binaire (par exemple, la présence ou absence d’une maladie) et on souhaite mettre au point un test permettant de détecter efficacement la survenance d’un événement précis (par exemple, la présence de la maladie).
Si le test est de nature quantitative (éventuellement ordinale), par exemple une concentration en une molécule, on va chercher à déterminer à partir de quelle concentration on peut considérer l'individu comme malade. Les courbes ROC et les indices calculés dans le cadre de cette méthode aident à prendre la bonne décision.
Jeu de données pour créer une courbe ROC et identifier la bonne valeur seuil pour une méthode de détection
Les données correspondent à une expérience médicale au cours de laquelle on a soumis 50 individus, parmi lesquels 20 sont malades, à un test dépistage consistant à mesurer la concentration d'une molécule virale.
Paramétrer la génération d'une courbe ROC pour identifier la bonne valeur seuil pour une méthode de détection
Une fois XLSTAT lancé, choisissez la commande Analyse de survie / Courbes ROC.
Une fois le bouton cliqué, la boîte de dialogue apparaît.
Vous pouvez alors sélectionner les données correspondant aux données événement et préciser quel code est associé aux événements positifs.
Sélectionnez ensuite les données correspondant au diagnostique et précisez quel type de règle doit être utilisé pour identifier la valeur seuil au-delà ou en-deçà de laquelle le test doit être considéré positif.
Nous choisissons ici de considérer que le test est positif si la concentration est supérieure ou égale à une valeur à déterminer.
Dans l'onglet Options, vous avez la possibilité de préciser la méthode à utiliser pour le calcul des intervalles de confiance.
XLSTAT est le logiciel proposant le plus grand choix. Les options par défaut sont celles le plus recommandées.
Dans cet onglet, vous avez aussi la possibilité d'affecter un coût aux différents cas. Nous souhaitons pénaliser fortement les erreurs de diagnostique et plus particulièrement le cas où des malades ne sont pas détectés.
Dans l'onglet Graphiques, nous choisissons d'afficher un graphique de décision basé sur les coûts.
Lorsque vous cliquez sur OK, les calculs sont effectués et les résultats sont affichés.
Interpréter les résultat d'une courbe ROC et identifier la bonne valeur seuil pour une méthode de détection
Le premier tableau donne les statistiques descriptives de la variable test, ici la concentration, suivi des statistiques pour la variable événement, ici la maladie. La prévalence observée est affichée et vaut ici 0.4.
La courbe ROC est ensuite affichée. A chaque petit carré correspond une observation.
La tableau "Analyse ROC" qui suit, présente pour chaque possibilité de valeur seuil, la valeur des différents indices de performance. Par exemple, si on décide de déclarer un individu malade lorsque la concentration est supérieure ou égale à 0.98, on a une sensibilité de 0.95, une spécificité de 0.733 et un coût de 61. Pour plus de détails sur les différents indices affichés, vous pouvez vous reporter au tutoriel sur l'analyse sensibilité et spécificité.
Un graphique construit à partir de ce tableau est ensuite affiché. Il permet de voir l'évolution des comptages VP (vrais positifs), VN (vrais négatifs), FP (faux positifs) et FN (faux négatifs) en fonction de la valeur seuil choisie.
Le graphique de décision permet quant à lui de choisir la valeur seuil qui minimise le coût. Pour voir à quelle valeur seuil correspond le minimum sur le graphique, il suffit de laisser la souris sur le point correspondant. Cette valeur correspond à une concentration 0.98 comme nous l'avions identifié plus haut dans le tableau d'analyse ROC.
La dernière série de résultats permet d'étudier l'aire sous la courbe ROC, appelée souvent AUC (Area Under the Curve). L'AUC et son intervalle de confiance sont calculées. Le test de comparaison à 0.5 permet de tester si le diagnostique est plus performant qu'une simple règle aléatoire. Dans notre cas, le test étant très performant, l'AUC est significativement différente de 0.5.
La comparaison des AUC est aussi un moyen de comparer différents tests de diagnostique. XLSTAT permet de comparer autant de tests que vous le souhaitez.
Cet article vous a t-il été utile ?
- Oui
- Non