Les défis de l’intégration des données en vie réelle : Apports et limites de la quasi-expérimentation

Benoît Le Maux, membre du Condorcet center, a participé au séminaire « La Méthodologie en Sciences Humaines et Sociales », organisée par le Réseau Sciences Humaines et Sociales du Cancéropôle Grand Ouest, le 7 avril 2017. Cette présentation est basée sur l’ouvrage suivant, à paraître en juin chez Springer : « JM Josselin & B Le Maux, Statistical Tools for Program Evaluation. Methods and Applications to Economic Policy, Public Health, and Education. Heidelberg: Springer. »

http://www.canceropole-grandouest.com/index.php/lecteur-dactualite/la-methodologie-en-sciences-humaines-et-sociales.html

Résumé de la présentation :

De nombreuses bases de données sont désormais accessibles à l’ère du Big Data, permettant ainsi d’évaluer les programmes de santé en situation de « vie réelle », lors de leur mise en œuvre sur la population cible. Ces données résultent toutefois d’expérimentations n’ayant pas fait l’objet d’une randomisation et, de ce fait, peuvent comporter des biais substantiels. Sous certaines conditions, les méthodes quasi-expérimentales (différences de différences, méthodes d’appariement, régressions en discontinuité, variables instrumentales) offrent un moyen de corriger ces biais, complétant  par là même les résultats obtenus lors d’essais cliniques randomisés préalables.

La méthode des différences de différences (difference-in-differences) examine l’évolution de la différence de résultat observée entre les groupes de comparaison et de traitement. Contrairement aux différences simples (avant/après et traité/non-traité), l’approche considère à la fois la dimension temporelle et l’appartenance au groupe. C’est de loin la méthode la plus simple pour estimer l’impact d’une intervention car, dans sa version la plus simple, elle ne nécessite que quatre valeurs moyennes.

Les méthodes d’appariement (propensity score matching) reposent sur l’estimation de scores de propension (probabilité de participer au traitement) afin de sélectionner et d’associer des sujets ayant des caractéristiques similaires. L’impact d’une intervention est alors calculé comme la différence de moyenne entre les deux groupes sélectionnés. Si le score est calculé avec précision, le résultat observé pour le groupe de comparaison devrait fournir un contrefactuel satisfaisant.

L’analyse par régression sur discontinuité (regression discontinuity design) compare le groupe traité et le groupe non-traité autour d’un seuil au-dessus ou au-dessous duquel l’intervention est dispensée (exemple : une valeur seuil de marqueur). L’approche est économétrique (MCO ou régression quantile). Les observations trop éloignées sont exclues de l’analyse. L’hypothèse sous-jacente est qu’en examinant les observations situées à proximité du seuil, on devrait éliminer les biais de sélection.

Enfin, l’estimation par la méthode des variables instrumentales (instrumental variables estimation) permet de corriger les biais de sélection lorsque l’exposition au traitement est liée à des caractéristiques non-observables (endogénéité de la participation individuelle). Par exemple, la méthode peut être appliquée aux situations où l’exposition à une intervention est déterminée dans une certaine mesure par les unités concernées, dans un processus d’auto-sélection.