TECH ECONOMY

Des plus spécifiques, portés par une start-up spécialisée, aux plus ambitieux, pilotés par des consortiums internationaux, les outils de diagnostic médical s'appuyant sur l'IA (machine learning, deep learning et vision artificielle) sont de plus en plus nombreux. Sauf que les biais d’analyse sont encore très présents dans ces outils, dont la fiabilité reste à prouver. 

 

« Un dermatologue de poche ». C’est ainsi que plusieurs médias ont présenté l’annonce par Google, le 18 mai 2021, de la sortie prochaine d’une application d’aide au diagnostic dermatologique, basée sur des réseaux de neurones artificiels profonds. Avec cette application, l’utilisateur soucieux d’être éclairé sur sa santé dermatologique répond à quelques questions (âge, antécédents…) et prend trois photos de sa peau ou de son cuir chevelu. Il obtient alors une courte sélection de pathologies possibles – Google affirme qu’elle est capable d’identifier 26 affections courantes de la peau, correspondant à 80 % des consultations initiales en dermatologie – et des informations médicales validées par des dermatologues. Contrairement à l’idée du « dermatologue de poche », l’application ne remplace pas la visite chez un spécialiste. Elle est cependant utile pour orienter la prise en charge. Ses concepteurs la destinent d’ailleurs en premier lieu aux personnels infirmiers et médecins généralistes.

Dès 2017, les développeurs de Google soutenaient que leurs programmes d’IA étaient à même de réaliser des diagnostics dermatologiques aussi précis que ceux de dermatologues.

La dermatologie, où le diagnostic passe souvent par l’analyse détaillée de nombreux clichés est, de fait, exemplaire de ce que l’intelligence artificielle peut apporter de plus évident : compenser, en partie au moins, le manque de temps que les spécialistes peuvent consacrer à étudier l’imagerie médicale. Dans un autre contexte – celui de la cardiologie – un spécialiste en charge de patients équipés de défibrillateurs peut recevoir des dizaines d’alertes par jour, dont la plupart sont anodines ; mais chacune nécessite 10 minutes d’attention pour être analysée, rappelle le cardiologue et fondateur de la start-up Implicity, Arnaud Rosier dans « L’intelligence artificielle en action ».

La solidité des diagnostics reste à prouver

Aujourd’hui, le diagnostic médical à partir d’images analysées par une IA recouvre un grand nombre de domaines, radiologie, cancérologie et ophtalmologie en tête. Avec quel succès ? Il n’est pas rare que start-ups, laboratoires de recherche ou grands acteurs du numérique investis dans le champ de la santé annoncent que leurs systèmes approchent à quelques points de pourcentage près le niveau de performance des spécialistes médicaux qu’ils sont censés « augmenter ». Certains revendiquent même une capacité de détection de tel ou tel signe pathologique meilleure que celle de l’expert humain. Des affirmations qui demandent cependant à être soigneusement examinées. Certes « les algorithmes de deep learning montrent en général un niveau de précision élevé, acceptable cliniquement », écrivent les chercheurs de l’Institut pour l’innovation globale en santé de l’Imperial College, dans une étude récente analysant les revendications de dizaines de dispositifs de diagnostic augmenté par l’IA en radiologie. Mais ils relèvent aussi que « l’estimation de la précision du diagnostic est très incertaine ».

En cause ? L’hétérogénéité des méthodes de comparaison des performances, l’absence d’accès au code et aux données utilisées, ou encore le faible nombre d’experts humains recrutés pour comparer les capacités de diagnostic, comme le relève une importante étude anglo-américaine, menée sur un large éventail d’outils de diagnostic utilisant le machine learning. De nombreux projets d’analyse automatisée des scanners pulmonaires, développés ces derniers mois pour lutter contre le Covid-19, pâtissent des mêmes faiblesses. Des chercheurs des universités de Cambridge et de Manchester ont relevé, dans une trentaine de cas analysés, que ni la sensibilité ni la robustesse des modèles algorithmiques n’a été évaluée, et que ces modèles n’ont pas été adaptés aux données démographiques des personnes dont les informations ont été utilisées.

De nombreuses questions ouvertes

Faisons l’hypothèse que les modèles d’IA utilisés pour le diagnostic médical soient parfaitement justes, sur le plan scientifique : données non biaisées, tests randomisés comparant différents systèmes avec la performance d’experts humains, dans des conditions homogènes et fidèles au contexte clinique d’utilisation… seraient-ils alors un atout évident ? A priori, oui. Mais à une dernière condition : celle de fixer clairement les responsabilités, partagées entre professionnels de santé et fournisseurs de services de diagnostic automatisé. Les ordres professionnels en sont désormais conscients : les professionnels doivent s’emparer du sujet, s’ils veulent maintenir la qualité de l’exercice médical et clarifier les responsabilités. « Lorsqu’un système d’IA génère une recommandation diagnostique ou thérapeutique, alors que le professionnel n’est pas en mesure de comprendre le fonctionnement de l’algorithme sous-jacent, comment doit-il composer avec ses obligations déontologiques ? », demandent par exemple deux chercheurs canadiens, spécialistes du droit de la santé, dans The Conversation.

De manière très pragmatique, dans l’hypothèse idéale d’un système fiable, robuste et sans biais, se pose la question de savoir comment organiser l’interaction entre IA et praticien. Faut-il programmer la machine pour qu’elle fasse systématiquement une proposition de diagnostic au professionnel de santé ? Est-il préférable que celui-ci ne la sollicite qu’à sa seule initiative ? L’analyse par la machine doit-elle être présentée sous la forme d’un score de probabilité, sous forme d’indicateurs simplifiés, ou au contraire multiples ? Ces questions commencent à peine à trouver des réponses dans la littérature scientifique. Mais sur le terrain médical… l’IA est déjà là. 

À retenir
Aujourd’hui, le diagnostic médical à partir d’images analysées par une IA recouvre un grand nombre de domaines, radiologie, cancérologie… « les algorithmes de deep learning montrent en général un niveau de précision élevé, acceptable cliniquement », mais ils relèvent aussi que « l’estimation de la précision du diagnostic est très incertaine ».

Sur le même thème

Le meilleur de l'avenir, une fois par mois.

Lire la dernière newsletter →
S’inscrire