L’évaluation des systèmes fondés sur l’apprentissage machine est un processus multifacettes qui comprend l’établissement de la validation interne et de la validation clinique, l’évaluation des résultats cliniques, la recherche sur la mise en œuvre et l’évaluation post-mise en œuvre.
Les approches d’établissement de la validation clinique incluent la comparaison du rendement du modèle à celui d’experts de la santé et le déploiement silencieux de systèmes, et la comparaison des prédictions aux issues réelles pour les patients; l’évaluation des résultats cliniques peut se faire par des essais randomisés contrôlés, des études de cohortes, des études de séries temporelles interrompues et des études avant/après.
La recherche sur la mise en œuvre comporte des éléments qualitatifs et quantitatifs et des évaluations formatives, et tient compte du contexte dans lequel le système sera déployé; les cadres d’évaluation peuvent aider les équipes à structurer leurs études et analyses.
L’évaluation post-mise en œuvre est nécessaire pour surveiller l’apparition de menaces au rendement du système après son déploiement, menaces qui pourraient nécessiter une formation d’appoint ou une recalibration des systèmes.
Une équipe multidisciplinaire composée de scientifiques des données, d’experts de la santé et de scientifiques de la mise en œuvre (expertise avec les données quantitatives et qualitatives) peuvent aider à assurer une évaluation complète avant, pendant et après le déploiement.
Les articles connexes présentent certains problèmes liés au développement de solutions fondées sur l’apprentissage machine en santé et suggèrent un cadre pour optimiser leur création1,2. L’utilisation de telles solutions est évaluée depuis quelques années dans de plus en plus de milieux cliniques. De nombreuses études présentent les données et les bases statistiques qui sont les fondements des outils fondés sur l’apprentissage machine2, mais peu se sont intéressées à leur évaluation et à leur mise en œuvre3. Nous traiterons de l’évaluation des solutions fondées sur l’apprentissage machine tout au long de leur cycle de vie afin d’optimiser leur utilisation et leur utilité dans la pratique clinique. La validation interne — la vérification de la capacité de discrimination et de la correspondance avec un étalon des prédictions d’un algorithme — doit être suivie par l’évaluation du rendement et des résultats d’intérêts dans le milieu clinique ainsi que par l’évaluation de l’intégration de l’outil au déroulement du travail (comme indiqué à la figure 1).
Cycle d’évaluation des systèmes fondés sur l’apprentissage machine en santé.
Quels sont les processus de création d’un modèle ou d’un algorithme et d’établissement de sa validation interne?
Pour évaluer le rendement prédictif des algorithmes fondés sur l’apprentissage machine, il faut d’abord évaluer leur capacité de discrimination et la correspondance de leurs prédictions avec un étalon. Le premier élément évalué quantifie la capacité de l’algorithme à classer les éléments selon la présence ou l’absence d’une caractéristique donnée; le second évalue dans quelle mesure les probabilités prédites par l’algorithme correspondent aux probabilités réelles4. Ces tests permettent d’évaluer la validation interne de l’algorithme et sont le sujet de la majorité des rapports publiés sur l’apprentissage machine en médecine3.
Les études déterminant le rendement prédictif et l’exactitude de différents algorithmes sont généralement de nature rétrospective. De grands ensembles de données déjà étiquetées sont utilisés pour former et tester les algorithmes3,5. Les méthodes d’apprentissage machine utilisées à cette étape vont d’approches assez connues, comme la régression linéaire ou logistique, à des réseaux neuronaux plus complexes, en passant par les modèles de traitement du langage naturel5,6. Dans tous les cas, les algorithmes sont d’abord « formés » sur la plus grande portion des données réservées à cette fin, les données de formation, puis évalués à l’aide des données restantes, les données de test3–5. Lorsque le résultat d’intérêt est binaire (présence ou absence d’une maladie), le rendement est habituellement rapporté à l’aide de mesures typiques, comme la sensibilité, la spécificité et l’aire sous la courbe caractéristique du rendement5,7. Pour les résultats continus (prédiction de la dose d’un médicament), il est généralement quantifié à l’aide de mesures comme la racine carrée de l’erreur quadratique moyenne ou l’erreur quadratique absolue8. Les méthodes graphiques, comme les courbes d’étalonnage, peuvent être utilisées pour évaluer la calibration du modèle9.
À ce stade de développement technique, les commentaires de professionnels de la santé ou de parties prenantes ne semblent peut-être pas immédiatement nécessaires, mais ils peuvent fournir d’importantes informations sur l’interprétabilité des indicateurs de rendement et sur les seuils acceptables de rendement du modèle dans la pratique10. Par exemple, dans le cadre du développement d’un système d’alerte précoce fondé sur l’apprentissage machine prédisant la détérioration de l’état du patient et la nécessité de soins intensifs dans les 24 heures, le seuil d’acceptabilité a été établi par les professionnels de la santé à au plus 2 fausses alertes par véritable alerte afin de prévenir la « fatigue liée aux alertes »1. À partir de cette exigence, il a été déterminé que le système devrait avoir une valeur prédictive positive d’au moins 0,3 tout en détectant autant de patients dont l’état s’est détérioré que possible1. Parce que les valeurs optimales des indicateurs de rendement varient selon le contexte clinique, il faudra tenir compte des préférences des professionnels de la santé et du milieu de soins dans lequel le système sera utilisé pour les définir correctement.
Comment établir la validation clinique des solutions fondées sur l’apprentissage machine?
Le rendement des outils fondés sur l’apprentissage machine lorsqu’on leur présente de nouvelles données réelles pourrait différer du rendement pendant l’établissement de la validation interne2. Les études prospectives qui comparent les prédictions faites par l’algorithme à celles de professionnels de la santé doivent donc absolument vérifier son rendement en contexte clinique. Comme décrit dans un article connexe, cette approche a été utilisée dans le cadre de l’évaluation d’un système d’alerte précoce fondé sur l’apprentissage machine permettant de cibler les patients hospitalisés qui pourraient avoir besoin de soins intensifs; l’évaluation a révélé que le système d’alerte précoce avait une meilleure sensibilité que les professionnels de la santé1. Mentionnons aussi les exemples des comparaisons entre les professionnels de la santé et les systèmes fondés sur l’apprentissage machine pour le diagnostic de cancers de la peau11–14; du diagnostic de dégénérescence maculaire associée à l’âge et de rétinopathie diabétique à l’aide de tomographies par cohérence optique de la rétine ou de photographies du fond de l’œil15–17; du dépistage de métastases liées au cancer du sein dans les biopsies des ganglions lymphatiques18,19; et de la détection de polypes lors d’une coloscopie20,21.
Une autre approche d’établissement de la validation clinique est la comparaison du rendement d’un algorithme nouvellement développé à celui des outils cliniques validés de calcul du risque couramment utilisés dans la pratique; cette approche a été appliquée à différents problèmes (prédiction de saignements gastro-intestinaux et de la mortalité après une chirurgie cardiaque22,23). Comme pour les approches exigeant une prédiction d’un professionnel de la santé, la comparaison avec les outils validés de calcul du risque doit se faire à l’aide de données ne faisant pas partie du processus de formation de l’algorithme.
Bien que de nombreuses études aient montré que le rendement des outils fondés sur l’apprentissage machine était au minimum comparable à celle de médecins experts, ce n’est pas toujours le cas24, ce qui souligne le besoin de mener des études de vérification clinique avant d’entreprendre des formes d’évaluation plus coûteuses en ressources. L’établissement de la validation clinique peut être particulièrement difficile lorsque la fidélité interévaluateurs pour les professionnels de la santé émettant un diagnostic est faible. Dans ce contexte, il pourrait être ardu de comparer le rendement des professionnels de la santé à celui des systèmes fondés sur l’apprentissage machine en raison des défis associés à la discrimination entre la présence et l’absence d’une maladie ou les stades de la maladie (rémission, rechute). Des stratégies potentielles pour remédier à ce problème comprennent l’utilisation d’aspects concrets et mesurables d’une maladie donnée (changement dans la notation des symptômes ou dans les paramètres de laboratoire) ou un résultat fonctionnel directement observable (capacité à retourner au travail) plutôt que des étiquettes diagnostiques indiquant la présence ou l’absence de la maladie dans les données de formation.
Le « déploiement silencieux » est une autre approche qui peut être utilisée pour établir la validation clinique. Comme décrit dans un article connexe, dans cette approche, le système fondé sur l’apprentissage machine est exécuté et génère des prédictions, mais celles-ci ne sont pas communiquées au professionnel de la santé et n’influencent donc pas les soins1. Bien que le déploiement silencieux vise généralement à régler des problèmes liés au déploiement technique et au déroulement du travail, sans toucher aux interventions cliniques, les prédictions de l’outil pendant cette phase peuvent être comparées aux issues réelles pour les patients, ce qui permettrait d’estimer le rendement de l’algorithme.
Il ne faut habituellement pas de grands ensembles de données pour valider à l’avance les algorithmes d’apprentissage machine. La taille de l’échantillon peut être estimée à l’aide des méthodes établies pour l’évaluation de l’exactitude d’un test25.
Comment déterminer si les solutions fondées sur l’apprentissage machine améliorent les issues pour les patients?
La vérification du rendement par des études sur la validation interne et clinique ne répond pas à une question fondamentale: l’intégration des solutions fondées sur l’apprentissage machine à la médecine clinique comporte-t-elle des avantages pour les patients26? Il est nécessaire de générer des données solides appuyant les retombées de ces algorithmes sur les issues pour les patients avant leur intégration étendue dans la pratique, et d’investir dans les ressources et les infrastructures nécessaires pour surveiller en continu le rendement de ces outils.
Comme c’est le cas pour d’autres types d’interventions, les essais randomisés contrôlés (ERC) sont la référence absolue pour déterminer l’efficacité des solutions fondées sur l’apprentissage machine. Pourtant, peu d’ERC sur ces solutions ont été enregistrées ou publiées3,27. On trouve un ERC à double insu sur un algorithme visant à détecter les complications neurologiques aiguës et un essai comparant l’effet de l’interprétation automatique des cardiotocographies à celle des soins traditionnels sur les issues cliniques chez les mères et les nourrissons28,29. La rareté des ERC en apprentissage machine peut s’expliquer par le besoin de grands échantillons de patients ou de longues durées de suivi pour montrer l’efficacité, les coûts et les problèmes relevant de la fidélité de l’intervention ou de la contamination entre les groupes lorsque les essais sont menés dans le même établissement. L’échantillonnage par grappes pourrait remédier à ce dernier problème, mais cette méthode ajoute à la complexité logistique et méthodologique déjà associée aux études multisites30,31.
Parce qu’il est difficile de réaliser des ERC, d’autres approches sont souvent utilisées pour générer des données sur les avantages cliniques des systèmes fondés sur l’apprentissage machine, comme des études de cohorte appariée, des études de séries temporelles interrompues quasi expérimentales et des études prospectives avant/après32–34. Dans un article connexe, nous avons décrit comment nous prévoyons utiliser une étude de cohorte appariée observationnelle pour évaluer un système d’alerte précoce fondé sur l’apprentissage machine dans une unité de médecine interne générale, considérant qu’un ERC aurait nécessité un échantillon d’environ 30 000 patients1. Bien que les conclusions des études observationnelles soient souvent considérées de moins bonne qualité que les conclusions des ERC, elles représentent un compromis entre les besoins des parties prenantes et des professionnels de la santé d’obtenir des données récentes sur les retombées cliniques des interventions fondées sur l’apprentissage machine et les ressources nécessaires pour réaliser un ERC.
Comment optimiser la mise en œuvre des solutions fondées sur l’apprentissage machine?
Malgré le potentiel des interventions fondées sur l’apprentissage machine d’aider à la prise de décision clinique et d’améliorer le déroulement du travail, il n’existe présentement que quelques exemples de déploiement réussi en médecine35. De plus, peu d’études décrivent les étapes suivies pour transformer les algorithmes en outils cliniques. Pourtant, ces études sont cruciales pour cibler et éliminer les obstacles sociaux, éthiques, organisationnels et logistiques à l’adoption des solutions. La science de la mise en œuvre — l’étude des méthodes favorisant l’adoption d’une intervention dans la pratique — devrait donc être considérée comme aussi importante que la science des données et l’évaluation des issues cliniques pour l’intégration des systèmes fondés sur l’apprentissage machine en médecine36,37. Le présent article n’a pas pour objectif de décrire en détail la science de la mise en œuvre, mais plusieurs points méritent une attention particulière.
Contrairement aux études sur la validation interne et à la recherche clinique, qui se concentrent sur le rendement et l’efficacité des solutions, les questions de recherche sur la mise en œuvre et les issues se concentrent sur le processus de mise en œuvre, et peuvent inclure des mesures de l’adoption ou de l’acceptabilité d’une intervention; elles pourraient décrire la perception des fournisseurs par rapport à l’intégration de l’intervention au déroulement du travail ainsi que les changements à apporter aux processus de soins37. De plus, il est important de comprendre le contexte dans lequel le système est mis en œuvre pour en optimiser l’adoption36. Cela nécessite de se pencher sur des questions comme: comment intégrer le système au déroulement actuel du travail? Comment personnaliser l’interface utilisateur de manière à réduire au minimum les perturbations aux pratiques existantes? Quels membres de l’équipe de soins utiliseront le système?
La recherche sur la mise en œuvre peut utiliser une approche quantitative ou une approche qualitative. Les données quantitatives peuvent provenir de sondages structurés, de bases de données administratives en santé, des dossiers médicaux électroniques ou des systèmes d’aide à la prise de décision, selon les résultats à l’étude38. Des sondages peuvent être utilisés pour déterminer les éléments favorables et les obstacles à la mise en œuvre, pour connaître les attitudes quant à l’intégration d’un système dans le déroulement du travail établi et l’acceptabilité de l’intervention. Les dossiers médicaux peuvent être une source d’information sur l’adoption d’une intervention, la qualité des soins et les coûts. Les méthodes qualitatives peuvent quant à elles ajouter de la profondeur et du contexte aux approches quantitatives en étudiant comment et pourquoi une intervention est utilisée ou non par les professionnels de la santé, ce qui donne un aperçu des dynamiques interprofessionnelles et organisationnelles qui influencent l’adoption, ainsi que des obstacles socioculturels à la mise en œuvre39. Les données qualitatives peuvent être générées par des entrevues approfondies, des groupes de discussion, des analyses documentaires ou des observations, selon les questions de recherche et l’orientation méthodologique ou théorique des chercheurs.
Enfin, des évaluations formatives, dans lesquelles des données sont générées et remises à l’équipe de recherche et à certains professionnels de la santé à différentes étapes de la mise en œuvre, permettent à l’équipe de mise en œuvre de remédier aux problèmes qui surviennent et d’adapter la solution pour mieux l’intégrer au processus de soins40. L’utilisation d’un cadre d’évaluation ou d’une théorie pendant l’étude de la mise en œuvre des outils fondés sur l’apprentissage machine peut aider les chercheurs à structurer leurs analyses et à préciser les concepts qui doivent être mesurés. Les lecteurs peuvent consulter d’autres sources expliquant les cadres d’évaluation couramment utilisés en science de la mise en œuvre41.
Pourquoi l’évaluation post-mise en œuvre continue est-elle nécessaire?
Puisque la médecine et les processus cliniques évoluent avec le temps, l’évaluation des solutions fondées sur l’apprentissage machine ne se termine pas avec leur mise en œuvre. Il faut plutôt les évaluer continuellement pour en surveiller le rendement. Une menace importante au bon rendement de ces solutions est la désynchronisation de l’ensemble de données et des données réelles, qui survient lorsque des changements à la médecine clinique ou à la distribution des caractéristiques des patients mènent à un ensemble de données réelles qui diffère de l’ensemble de données de formation42–44. Cela peut se produire, par exemple, si un algorithme est utilisé pour faire des prédictions cliniques sur des données d’une population de plus en plus diversifiée sur le plan ethnique, ou dans un nouveau site avec une population de patients différant de l’ensemble de données de formation2,45. D’autres menaces au rendement des systèmes liées aux données pourraient être des changements par rapport aux variables utilisées lors de la phase de formation, comme l’ajout d’une nouvelle catégorie ou l’augmentation de la fréquence à laquelle certaines variables sont absentes.
L’évaluation continue du rendement du système peut nécessiter plusieurs étapes46–49, dont une formation d’appoint du système avec les ensembles de données les plus récents, la comparaison du rendement du modèle lors de l’analyse des nouvelles données avec son rendement lors de l’analyse des données utilisées à ce moment et l’investigation des divergences; la mise à jour des définitions des résultats et des intrants du modèle pour suivre l’évolution de l’épidémiologie, du traitement ou des processus pathophysiologiques d’une maladie; la génération d’alertes déclenchées lorsque la fréquence de certaines variables change; et la consultation régulière d’experts pour détecter tout changement dans le rendement du système et en assurer la pertinence clinique. Lorsque possible, l’évaluation post-mise en œuvre d’une solution fondée sur l’apprentissage machine devrait être automatisée et prévue à intervalles réguliers pour détecter les sources de détérioration du système, enquêter sur ces problèmes et y remédier rapidement.
Conclusion
L’évaluation des solutions fondées sur l’apprentissage machine est un processus multifacettes qui nécessite l’expertise de scientifiques des données, d’experts de la santé et de scientifiques de la mise en œuvre. Présentement, la documentation décrivant l’évaluation de ces solutions demeure essentiellement axée sur la validation interne — assez peu d’études s’intéressent aux résultats cliniques et à la mise en œuvre des systèmes. Ce déséquilibre a contribué au fossé entre le développement et l’établissement de la validation des algorithmes et leur utilisation en médecine clinique43. D’autres études sur les résultats cliniques et la mise en œuvre sont donc nécessaires pour pleinement exploiter le potentiel de l’apprentissage machine en médecine.
Footnotes
Voir la version anglaise de l’article ici: www.cmaj.ca/lookup/doi/10.1503/cmaj.210036; voir les articles connexes ici: www.cmaj.ca/lookup/doi/10.1503/cmaj.202434-f et www.cmaj.ca/lookup/doi/10.1503/cmaj.202066-f.
Intérêts concurrents: Aucun déclaré.
Cet article a été révisé par des pairs.
Collaborateurs: Les deux auteurs ont contribué à l’élaboration et à la conception des travaux. Tony Antoniou a rédigé l’ébauche du manuscrit. Muhammad Mamdani a révisé de façon critique le contenu intellectuel important du manuscrit. Les deux auteurs ont donné leur approbation finale pour la version soumise pour publication et assument l’entière responsabilité de tous les aspects du travail.
Il s’agit d’un article en libre accès distribué conformément aux modalités de la licence Creative Commons Attributions (CC BY-NC-ND 4.0), qui permet l’utilisation, la diffusion et la reproduction dans tout médium à la condition que la publication originale soit adéquatement citée, que l’utilisation se fasse à des fins non commerciales (c.-à-d., recherche ou éducation) et qu’aucune modification ni adaptation n’y soit apportée. Voir: https://creativecommons.org/licenses/by-nc-nd/4.0/